Texterkennung 4.0 mit OCR
Text-erkennung 4.0 mit OCR
Texterkennung 4.0 – Herausforderungen & Chancen von OCR für die Prozessautomatisierung
Texterkennung 4.0 – Herausforderungen & Chancen von OCR für die Prozessautomatisierung
OCR (Optical Character Recognition) hat in der Geschäftswelt lange eine untergeordnete Rolle gespielt. Erst der Siegeszug der Digitalisierung und Prozessautomatisierung rückt OCR vermehrt in das Blickfeld vieler Unternehmen. Seit 2018 wächst die Branche jährlich um bis zu 20%. Alles zu den Herausforderungen & Chancen von OCR für RPA findest du in diesem Artikel.
Was ist OCR?
Noch lange bevor Automatisierung zu einem Top-Thema geworden ist, gab es bereits OCR-Software. OCR steht für Optical Character Recognition und beschreibt elektronische Systeme, die Texte in Bildern und Scans erkennen können.
Das erste OCR-System ist laut Historiker Herbert Schantz bereits 100 Jahre alt:
- Im Zuge des 1. Weltkriegs entwickelte Emanuel Goldberg eine Maschine, die geschriebenen Text in telegrafischen Code umwandeln konnte.
- Diese Maschine war so erfolgreich, dass Goldberg sie anschließend zur ersten Business-Lösung weiterentwickelte. Unternehmen archivierten Daten damals noch auf Mikrofilm, die das Sichten des Archivs extrem aufwendig machte. Goldberg baute eine Maschine, die automatisch Mikrofilme nach bestimmten Zeichenfolgen durchsucht.
- OCR war allerdings lange durch Schriftarten limitiert. Für jede Schriftart musste das OCR-Tool zunächst mit entsprechenden Bildern trainiert werden. Erst in den 1970ern wurde ein OCR-Tool entwickelt, dass fast alle Schriftarten erkennen konnte.
- Mit der Durchsetzung des Heimcomputers kamen in den 2000ern dann die ersten OCR-Tools für den PC. Mit ihnen können Anwender beispielsweise Texte scannen und anschließend lesbare PDF-Dateien daraus machen.
Datentypen und OCR
OCR wurde ursprünglich für die Verarbeitung strukturierter Daten entwickelt. In modernen Unternehmen sind andere Datentypen allerdings mindestens genauso häufig vertreten:
Strukturiert sind Daten, die einem einheitlichen Format entsprechen. Dazu gehören beispielsweise Ausweisdokumente eines Landes: Der deutsche Personalausweis hat immer dieselbe Struktur. Dieselben Informationstypen (Name, Adresse, Nummer) stehen an derselben Stelle im selben Format. Nur die Inhalte unterscheiden sich. Strukturierte Daten sind für Software-Roboter anhand simpler Regeln zu verarbeiten. Eine einfache OCR-Lösung kann die Daten beispielsweise anhand ihrer Position auf dem Dokument erkennen, nachdem sie einmal das Muster des Personalausweises kennt.
Semistrukturiert sind Daten, wenn die Informationstypen einheitlich sind, die Position im Dokument allerdings nicht. Ein Beispiel für semistrukturierte Daten sind Rechnungen. Rechnungen folgen keinem standardisierten Format. Die Adresse kann sich oben links oder in der Fußzeile befinden – sie ist allerdings immer auf dem Dokument. Regelbasierte Ansätze kommen hier an ihre Grenzen und produzieren immer dann einen Fehler, wenn eine Rechnung von der angenommenen Struktur abweicht.
Unstrukturiert sind Daten, wenn sich sowohl in den Informationstypen als auch in ihrem Format unterscheiden. Zum Beispiel Emails, Verträge und Protokolle. Unstrukturierte Daten sind durch die Abwesenheit von Mustern sowohl in Typ als auch Format die größte Herausforderung für moderne OCR-Tools.
Wie können semi- und unstrukturierte Daten verarbeitet werden?
Semi- und unstrukturierte Daten aus Rechnungen, Bewerbungsunterlagen, Ausweisdokumente und E-Mails zu erfassen, setzt eine intelligente Lösung voraus, die sowohl mit verschiedenen Datentypen als auch mit verschiedenen Formaten zurechtkommt.
Einen wesentlichen Fortschritt in der Weiterentwicklung der OCR-Technologie markierte die vorlagenbasierte OCR-Technologie. Anhand einer Vorlage extrahiert das OCR-Programm, die gewünschten Information an der gewünschten Stelle im Dokument. Vorlagen-basierte OCR-Software beinhaltet damit bereits einen Schritt zur Automatisierung der Datenverarbeitung: Kein Mitarbeiter muss die wesentlichen Informationen aus dem Dokument filtern. Stattdessen gibt die Software von Anfang an nur die richtigen Daten aus.
Moderne OCR Tools gehen weiter, in dem Sie die elektronische Texterkennung mit KI-Technologien verbinden. Intelligente OCR-Technologie setzt auf Machine Learning-Algorithmen und arbeitet nach diesem Schema:
- Digitalisierung und Klassifizierung des Dokuments anhand von OCR und z.B. Keyword-Klassifikation
- Extraktion und Validierung der Datenpunkte aus dem Dokument mithilfe von spezifisch trainierter KI
- Verifikation der ausgelesenen Inhalte eines menschlichen Mitarbeiters
- Weiterverarbeitung der extrahierten Datenpunkte in Zielsysteme
- Zudem wird anhand der validierten und erfolgreich ausgelesenen Dokumente die KI trainiert, um in Zukunft noch zielsicherer zu sein.
Eine intelligente OCR-Lösung lässt sich damit sowohl für strukturierte, semistrukturierte und unstrukturierte Daten nutzen und bietet eine Reihe von Vorteilen:
- Automatische Erkennung von Dokumenten-Mustern und anlernen dieser Muster für die zukünftige automatisierte Datenextraktion von semistrukturierten Dokumenten wie Rechnungen oder Auftragsbestätigungen
- Bessere Erkennung von Zeichenfolgen und dadurch Vermeidung von Fehlern zum Beispiel bei Datumsangaben
- Machine Learning zum selbstständigen Anlernen von spezifischen Dokumententypen
- NLP zur Erkennung von relevanten Datenpunkten in unstrukturierten Dokumenten
- Frei gestaltbaren oder vorgegebenen Form-Templates anhand derer Datenpunkte aus strukturierten Dokumenten gezielt extrahiert werden können (Beispiel: Personalausweis, Krankheitsattest)
Drei Anwendungsfälle für OCR & RPA im Unternehmen
Mit den Fortschritten auf dem Gebiet des Machine Learning und der Spracherkennung können OCR und RPA ihre Stärken voll ausspielen und ermöglichen Hyperautomatisierung: die Automatisierung komplexer End-to-End-Prozesse. Microsoft Power Automate, ABBYY und UiPath verfügen als Automatisierungsplattformen beispielsweise über moderne OCR-Software, die auch semistrukturierte und unstrukturierte Daten erkennen und komplexe Workflows abbilden können.
Durch den Einzug von Machine-Learning-Technologien in OCR-Software und RPA ergeben sich so vielfältige neue Anwendungsfälle für alle Unternehmen.
In der Finanzbranche sind KYC-Prozesse gesetzlich vorgeschrieben. Unternehmen müssen die Identität ihrer Kunden verifizieren, bevor sie diesem Kunden Zugang zu ihrer Plattform geben dürfen. Das geht ohne RPA mit einem enormen Ressourcenaufwand einher: Mitarbeiter müssen die Daten anfordern, manuell überprüfen und die Nutzer freischalten. Dank moderner OCR-Technologie und Software-Robotern lässt sich dieser Prozess vollständig automatisieren:
- Der Nutzer meldet sich an
- Das System erkennt eine Anmeldung und fragt automatisch die notwendigen Dokumente ab
- Der Nutzer lädt die Dokumente über ein Formular hoch
- Ein OCR-Tool liest die Daten aus den hochgeladenen Dokumenten aus
- Die KI interpretiert die ausgelesenen Ergebnisse und ordnet sie den Informationstypen zu
- Der Software-Roboter schaltet den Nutzer frei
Die GoDB stellt hohe Anforderungen an die Archivierung wichtiger Geschäftsdaten. Unternehmen in Deutschland müssen relevante Daten für 7 – 10 Jahre revisionssicher und dokumentiert speichern. Dazu gehören auch Rechnungen. Rechnungen gehören zu den semistrukturierten Daten und müssen daher für die Archivierung vorbereitet und in das Archiv eingepflegt werden. Mit einer Automatisierung lässt sich dieser Prozess wesentlich effizienter gestalten:
- Der Software-Roboter überwacht die E-Mail-Eingänge und durchsucht sie nach Rechnungen
- Die Rechnung wird per OCR ausgelesen
- Die KI extrahiert die relevanten Informationen
- Anschließend kann die Rechnung validiert und freigeben werden
- Sobald die Rechnung beglichen ist, verschiebt der Roboter die Rechnung automatisch an die richtige Stelle im Archivierungssystem
Stellenbesetzungen kosten viel Zeit. Eingehende Bewerbungen müssen erfasst, in mehreren Stufen sortiert und an die Entscheider verteilt werden, bevor die HR alle Bewerber manuell kontaktiert und Vorstellungsgespräche vereinbart. Eine Automatisierung dieses Prozesses könnte so aussehen:
- Bewerber lädt seine Bewerbung über ein Bewerbungsformular im digitalen Bewerbungsportal hoch
- Eine intelligente OCR-Software analysiert unstrukturierte, semistrukturierte und strukturierte Daten und bereitet sie für den Software-Roboter auf
- Ein Software-Roboter kann die Bewerbungen nun nach festgelegten Kriterien weiterverarbeiten und zum Beispiel automatisch alle Bewerber ab einer Abschlussnote >3,0 aussortieren
- Der Software-Roboter versendet automatisch Absagen an alle herausgefilterten Bewerber
Fazit: OCR & RPA
OCR-Technologie führte lange ein Nischendasein innerhalb der Geschäftswelt. Aber die Integration von Machine Learning in die OCR-Technologie zeigt, wie groß das Potenzial der Technologie für die Prozessautomatisierung ist. Analysten rechnen in den nächsten 8 Jahren mit zweistelligen Wachstumsraten und damit einer Verdopplung des OCR-Markts. Unternehmen können bereits heute profitieren. RPA-Suiten wie Microsoft Power Automate oder UiPath bieten über eine leistungsfähige OCR-Lösung in Kombination mit künstlicher Intelligenz, mit denen sich einfach und effektiv erste Workflows automatisieren lassen.