Tech-Riesen wie OpenAI und Google bieten niedrigschwellige Angebote zur Extraktion von Dokumenten per API. Unternehmen können flexible Angebote wählen, mit denen sie die gewünschte Menge an Dokumenten auslesen können. Allerdings entstehen auch einige Nachteile bei diesem Modell.
OCR – Die Historie der Dokumenten Extraktion
Die Extraktion von Daten aus Dokumenten erfolgte lange Zeit überwiegend über spezialisierte OCR-Dienstleister mit regelbasierten Systemen. Diese boten erhebliche Effizienzgewinne, gingen jedoch mit Kosten und einer gewissen Abhängigkeit einher. Da die Dokumentenverarbeitung häufig geschäftskritisch ist, prüfen viele Unternehmen heute, ob der ergänzende Aufbau eigener Extraktionskompetenzen mehr Flexibilität und Kontrolle ermöglichen kann. Aber lohnt sich das wirklich oder macht es Sinn bei altbewährten Lösungen zu bleiben?
KI & LLMs – Plötzlich alles einfach?
Der Fortschritt in generativer KI (GenAI) macht es Unternehmen so einfach wie nie zuvor strukturierte Daten aus Dokumenten auszulesen. Die künstliche Intelligenz hat zwei neue Möglichkeiten offenbart:
ChatGPT, Gemini, und Co.
Tech-Riesen wie OpenAI und Google bieten niedrigschwellige Angebote zur Extraktion von Dokumenten per API. Unternehmen können flexible Angebote wählen, mit denen sie die gewünschte Menge an Dokumenten auslesen können. Auch eine Anbindung an die API ist möglich, wodurch ein schneller Wechsel zwischen den Anbietern ganz einfach gewährleistet wird. Da KI-Modelle kontinuierlich besser werden, versprechen sich Unternehmen von dieser Lösung maximale Flexibilität.
Die Vorteile sind schnell zusammengefasst: Flexibilität, geringe Kosten und einfache Anbindung.
Allerdings entstehen auch einige Nachteile bei diesem Modell. An erster Stelle steht hier das Thema Datenschutz. So lassen sich Dokumente mit Zahlungsdaten (Rechnungen), persönlichen Informationen oder sogar medizinischen Informationen schon einmal kategorisch ausschließen. Ein weiterer Nachteil ist, dass auch in diesem Modell weiterhin eine Abhängigkeit zu einem Dienstleister besteht. Schon ein kurzer Ausfall des Dienstes (z.B. eine Stunde) kann zu massiven Folgen führen – sowohl in Bezug auf die internen Abhängigkeiten als auch hinsichtlich der Kundenbeziehungen. Auch die generelle Flexibilität beim Wechsel des Anbieters hilft in diesem Fall nur bedingt. Zusätzlich sind Nutzer von Big Tech APIs sogenannten “noisy-neighbour” Effekten ausgesetzt. Das bedeutet, dass die Leistung des Systems (z.B. die Schnelligkeit) von der Anzahl an Anfragen von allen Nutzern der API abhängt. Außerdem sind die Big AI Systeme nicht auf bestimmte Dokumententypen spezialisiert, was mit schlechterer Performance in Grenzfällen und unverhältnismäßig hohem Energieverbrauch einhergeht.
Die Nachteile sind also Datenschutzbedenken, eine klare Abhängigkeit durch den Dienstleister, “Noisy-Neighbour”-Effekte und die Tatsache, dass diese Systeme nicht auf Datenextraktion aus Dokumenten ausgelegt sind.
Interne Fähigkeiten Aufbauen
Unternehmen, die eine vollständige Unabhängigkeit von Dienstleistern anstreben, haben durch sogenannte “open-source” KI-Modelle die Möglichkeit, eigene Kompetenzen in der Auslese von Dokumenten aufzubauen. Durch das “fine-tuning” (d.h., die Anpassung) von diesen frei erhältlichen KI-Modellen, können Unternehmen die Modelle auf ihre ganz speziellen Dokumente und Anwendungsfälle spezialisieren. Sie machen sich somit sowohl von der Sicherheit und Verlässlichkeit eines Dienstleisters, als auch von dessen Produktentwicklung unabhängig. So behalten Unternehmen die vollständige Kontrolle über sensible Daten und können DSGVO-Konformität einfach nachweisen. Für Unternehmen, die solche KI-Fähigkeiten breiter einsetzen können, kann dies die langfristig kostengünstigste Variante darstellen. Nach den initialen Investitionen fallen vergleichsweise geringe Serverkosten an.
Vorteile:
- Spezialisierung auf eigene Anwendungsfälle
- Sicherheit und Verlässlichkeit in der eigenen Hand
- Unter Umständen langfristig die kostengünstigste Variante
- Aufbau eigener KI-Fähigkeiten
Nachteile:
- Hoher Zeit- und Analyseaufwand beim Training
- Jahre bis zur Qualität etablierter Anbieter (v. a. Grenzfälle)
- Zwischenzeitliche Verschlechterung der Kundenerfahrung
- Hohe Initialkosten für Personal, Training und Infrastruktur
- Kontinuierlicher Trainingsbedarf zur Qualitätssicherung
- Begrenzte Trainingsdaten können Wettbewerbsnachteile erzeugen
- Überdimensionierte Serverkapazitäten durch Lastspitzen
Wann ergibt ein spezialisierter Dienstleister Sinn?
Falls ein Unternehmen eine schnelle, qualitativ hochwertige Lösung benötigt, ist ein spezialisierter Dienstleister in der Regel die richtige Wahl. Dienstleister wie Gini haben über Jahre ihre KI-Modelle auf ihre Anwendungsfälle trainiert und sind somit sofort in der Lage, selbst Grenzfälle sauber zu bearbeiten. Sollte die Qualität weniger wichtig sein, kommt es auf die Risikopräferenz bzw. Die regulatorischen Vorgaben im Zusammenhang mit dem Datenschutz an. Einige Dienstleister stechen durch einen starken Fokus auf Datenschutz hervor. Hierbei sollten Unternehmen auf Zertifizierungen wie “Software hosted in Germany”, ISO27001, oder auch BSI C5 achten. Darüber hinaus sind die Verlässlichkeit (d.h. Uptime) und der Preis der Leistung wichtige Indikatoren.

Wir bei Gini möchten mit unseren Beiträgen, Artikeln, Leitfäden, Whitepaper und Pressemitteilungen alle Menschen erreichen. Deshalb betonen wir, dass sowohl weibliche, männliche als auch anderweitige Geschlechteridentitäten dabei ausdrücklich angesprochen werden. Sämtliche Personenbezeichnungen beziehen sich auf alle Geschlechter, auch dann, wenn in Inhalten das generische Maskulinum genutzt wird.


