Wie Bild-zu-Text funktioniert (aka Optical Character Recognition)

Das Herausziehen von Text aus Bildern war dank der OCR-Technologie (Optical Character Recognition) nie einfacher als heute.

OCR ermöglicht uns, alle möglichen nützlichen Dinge zu tun, wie die Suche nach Bildern mit Textabfragen, die Reproduktion von Dokumenten ohne manuelle Eingabe und die Umwandlung von handgeschriebenem Text in digitalen Text. So wandeln Sie ein Bild mit Handschrift in Text mit OCR um Ein Bild mit Handschrift in Text mit OCR Um ein Bild von handgeschriebenem Text in digitalen Text umzuwandeln, den Sie bearbeiten und suchen können, benötigen Sie ein OCR-Werkzeug (Optical Character Recognition). Probieren Sie eines dieser OCR-Tools aus, um die Handschrift zu digitalisieren. Weiterlesen .

Aber was ist optische Zeichenerkennung? Wie funktioniert es eigentlich? Es mag Ihnen wie schwarze Magie erscheinen, aber am Ende dieses Artikels haben Sie ein solides Verständnis davon, wie Computer Buchstaben und Wörter erkennen können.

Wie funktioniert die optische Zeichenerkennung?

Um zu verstehen, wie Text aus einem Bild extrahiert wird, müssen wir zuerst verstehen, was Bilder sind und wie sie auf Computern gespeichert sind.

Ein Pixel ist ein einzelner Punkt einer bestimmten Farbe. Ein Bild ist im Wesentlichen eine Sammlung von Pixeln. Je mehr Pixel in einem Bild vorhanden sind, desto höher ist seine Auflösung. Ein Computer weiß nicht, dass ein Bild eines Wegweisers wirklich ein Wegweiser ist - es weiß nur, dass das erste Pixel diese Farbe ist, das nächste Pixel ist diese Farbe und zeigt alle seine Pixel an, damit Sie es sehen können.

Dies bedeutet, dass sich Text und Nicht-Text nicht von einem Computer unterscheiden, und deshalb ist die optische Zeichenerkennung so schwierig. In diesem Sinne, hier ist, wie es funktioniert.

Schritt 1: Vorverarbeitung des Bildes

Bevor Text gezogen werden kann, muss das Bild auf bestimmte Arten massiert werden, um die Extraktion zu erleichtern und mit größerer Wahrscheinlichkeit erfolgreich zu sein. Dies wird als Vorverarbeitung bezeichnet, und verschiedene Softwarelösungen verwenden unterschiedliche Kombinationen von Techniken.

Die üblicheren Vorverarbeitungstechniken umfassen:

Binarisierung
Jedes einzelne Pixel im Bild wird in Schwarz oder Weiß umgewandelt. Ziel ist es, deutlich zu machen, welche Pixel zum Text gehören und welche Pixel zum Hintergrund gehören, was den eigentlichen OCR-Prozess beschleunigt.

Binarisierung für die optische Zeichenerkennung

Schräglage
Da Dokumente selten mit perfekter Ausrichtung gescannt werden, können die Zeichen schräg oder sogar auf dem Kopf stehen. Das Ziel besteht darin, horizontale Textzeilen zu identifizieren und dann das Bild so zu drehen, dass diese Zeilen tatsächlich horizontal sind.

Despeckle
Unabhängig davon, ob das Bild binarisiert wurde oder nicht, kann es Rauschen geben, das die Identifizierung von Zeichen stören kann. Despeckling beseitigt dieses Rauschen und versucht das Bild zu glätten.

Leitungsentfernung
Identifiziert alle Zeilen und Markierungen, bei denen es sich wahrscheinlich nicht um Zeichen handelt, und entfernt sie dann, damit der eigentliche OCR-Prozess nicht durcheinander gebracht wird. Dies ist besonders wichtig beim Scannen von Dokumenten mit Tabellen und Boxen.

Zonierung
Trennt das Bild in einzelne Textabschnitte, z. B. zum Identifizieren von Spalten in mehrspaltigen Dokumenten.

Zoning für optische Zeichenerkennung — Bildquelle: WayneRay / Wikimedia

Schritt 2: Verarbeiten des Bildes

Zunächst einmal versucht der OCR-Prozess, die Grundlinie für jede Textzeile im Bild festzulegen (oder wenn er in der Vorverarbeitung in Zonen unterteilt wurde, wird er jede Zone nacheinander durchlaufen). Jede identifizierte Zeile von Zeichen wird einzeln behandelt.

Für jede Zeile von Zeichen identifiziert die OCR-Software den Abstand zwischen Zeichen, indem sie nach vertikalen Zeilen von Nicht-Text-Pixeln sucht (was bei richtiger Binarisierung offensichtlich sein sollte). Jeder Pixelblock zwischen diesen Nicht-Text-Zeilen wird als ein "Token" markiert, das ein Zeichen darstellt. Daher wird dieser Schritt Tokenisierung genannt .

Bildverarbeitung für die optische Zeichenerkennung

Sobald alle möglichen Zeichen im Bild mit Token versehen sind, kann die OCR-Software zwei verschiedene Techniken verwenden, um zu identifizieren, welche Zeichen diese Zeichen tatsächlich sind:

Mustererkennung
Jeder Token wird Pixel für Pixel mit einer ganzen Reihe bekannter Glyphen verglichen - einschließlich Zahlen, Interpunktionszeichen und anderen Sonderzeichen - und die engste Übereinstimmung wird ausgewählt. Diese Technik wird auch als Matrix-Matching bezeichnet.

Hier gibt es mehrere Nachteile. Erstens müssen die Token und Glyphen von ähnlicher Größe sein, sonst passt keiner von ihnen. Zweitens müssen die Tokens in einer ähnlichen Schriftart wie die Glyphen sein, was Handschrift ausschließt. Wenn jedoch die Schriftart des Tokens bekannt ist, kann die Mustererkennung schnell und genau sein.

Merkmalsextraktion
Jedes Token wird mit verschiedenen Regeln verglichen, die beschreiben, um welche Art von Charakter es sich handelt. Zum Beispiel sind zwei vertikale Linien gleicher Höhe, die durch eine einzige horizontale Linie verbunden sind, wahrscheinlich ein Großbuchstabe H.

Diese Technik ist nützlich, da sie nicht auf bestimmte Schriftarten oder -größen beschränkt ist. Es kann auch nuancierter sein, wenn man die feinen Unterschiede zwischen einem Großbuchstaben I, Kleinbuchstaben L und der Zahl 1 erkennt. Der Nachteil? Das Programmieren der Regeln ist viel komplexer als das einfache Vergleichen der Pixel in einem Token mit den Pixeln in einem Glyph.

Schritt 3: Nachbearbeitung des Bildes

Sobald der gesamte Token-Abgleich abgeschlossen ist, könnte die OCR-Software den Tag einfach aufrufen und Ihnen die Ergebnisse präsentieren. Aber in der Regel muss ein bisschen mehr getan werden, um sicherzustellen, dass Sie Ihre Augen nicht mit Kauderwelsch verdrehen.

Lexikalische Einschränkung
Alle Wörter werden mit einem Lexikon der zugelassenen Wörter verglichen, und alle Wörter, die nicht übereinstimmen, werden durch das passendste Wort ersetzt. Ein Wörterbuch ist ein Beispiel für ein Lexikon. Dies kann helfen, Wörter mit fehlerhaften Zeichen zu korrigieren, wie "Dorn" anstelle von "th0rn".

Anwendungsspezifische Optimierungen
Wenn OCR in Nischeneinstellungen verwendet wird, beispielsweise für medizinische oder juristische Dokumente, kann eine spezielle Art von OCR verwendet werden, die speziell für diese Einstellung entwickelt wurde. In diesen Fällen sucht die OCR-Software nach mathematischen Gleichungen, branchenspezifischen Begriffen usw.

Natürliche Sprache
Diese fortgeschrittene Technik korrigiert Sätze, indem sie ein Sprachmodell verwendet, das beschreibt, wie wahrscheinlich bestimmte Wörter anderen Wörtern folgen sollen. Es ähnelt der Technologie, mit der Sie vorhersagen, welches Wort Sie als nächstes auf einer mobilen Tastatur eingeben möchten.

Wenn dies gut gemacht wird, kann dies zu Text führen, der bemerkenswert lesbar ist.

Empfohlene optische Zeichenerkennungstools

Jetzt, wo Sie wissen, wie OCR funktioniert, sollte es leicht sein zu sehen, dass nicht alle OCR-Tools gleich sind. Die Genauigkeit Ihrer Ergebnisse hängt stark davon ab, wie gut die Software die verschiedenen in diesem Artikel beschriebenen OCR-Techniken implementiert.

Wir empfehlen OneNote sehr dafür, was nur ein Grund ist, warum Evernote Evernote vs. OneNote schlägt: Welche Notiz-App ist die richtige für Sie? Evernote vs. OneNote: Welche Notizen-App ist für Sie geeignet? Evernote und OneNote sind erstaunliche Notizen Apps. Es ist schwer zwischen den beiden auszuwählen. Wir haben alles von der Benutzeroberfläche bis zur Notenorganisation verglichen, um Ihnen bei der Auswahl zu helfen. Was funktioniert am besten für dich? Weiterlesen . Wenn Sie bereit sind, für eine Premiumlösung zu bezahlen, sollten Sie OmniPage in Erwägung ziehen. Vergleichen Sie OneNote vs. OmniPage für OCR frei im Vergleich zu kostenpflichtiger OCR-Software: Microsoft OneNote und Nuance OmniPage Verglichen mit kostenloser Paid-OCR-Software: Mit Microsoft OneNote und Nuance OmniPage Compared OCR Scanner können Sie Text in Bildern oder PDFs in bearbeitbaren Text konvertieren Unterlagen. Ist ein kostenloses OCR-Tool wie OneNote gut genug? Lass es uns herausfinden! Weiterlesen . Für mobile Dokumente, sollten Sie diese OCR-Apps für Android-Geräte auschecken 6 Beste Android OCR-Apps zum Extrahieren von Text aus Bildern 6 Beste Android OCR-Apps zum Extrahieren von Text aus Bildern Müssen Sie jeden gedruckten Text digitalisieren, so dass Sie weiche Kopie davon? Dann brauchen Sie nur ein OCR-Tool (Optical Character Recognition). Weiterlesen .

Wie verwenden Sie OCR? Haben Sie irgendwelche Lieblings-OCR-Tools, die wir nicht erwähnt haben? Lass es uns in den Kommentaren wissen!