Bessere Zeichenerkennung dank Deep Learning

Deep OCR liest Dot-Print und gruppiert zusammengehörende Zeichen automatisch. (Bild: MVTec Software GmbH)

OCR unabhängig von Schrifttyp & Rotation

Mit dem Feature Deep OCR, das in die aktuelle Version 20.11 der Machine-Vision-Standardsoftware Halcon integriert ist, bedarf es keiner Segmentierung einzelner Zeichen mehr. Die Technologie nutzt zwei spezifisch vortrainierte Deep-Learning-Netze: Eines dient dazu, komplette Wörter anstatt einzelne Buchstaben im Bild zu finden. Als Ergebnis wird die genaue Position des jeweiligen Wortes mit einem umschließenden Rechteck (Bounding Box) gekennzeichnet. Das zweite Netz hingegen ist speziell auf das Lesen des Wortes trainiert. Der wesentliche Unterschied zu herkömmlichen Verfahren besteht darin, dass beide Schritte der Zeichenerkennung – also das Finden sowie das Lesen der Wörter – auf Deep-Learning-Algorithmen basieren und ganze Wörter anstatt einzelner Buchstaben gelesen werden. Der große Vorteil dieses dualen Ansatzes: Es müssen nur wenige Parameter an die jeweilige Applikation angepasst werden. So arbeitet die Technologie völlig unabhängig vom Schrifttyp, gleich ob Dot-Print-, Kursivschrift oder Schlagzahlen. Auch die Rotation und Ausrichtung des Textes im Bild sowie die Polarität – also ob schwarze Zeichen auf weißem Hintergrund oder umgekehrt – spielen keine Rolle. Denn hinsichtlich dieser Parameter wurde das Netz bereits trainiert, sodass keine entsprechenden Einstellungen mehr manuell vorzunehmen sind. Dabei lassen sich die beiden Netze auch unabhängig voneinander nutzen. Dies macht beispielsweise Sinn, wenn die genaue Position des jeweiligen Wortes im Bild bereits bekannt ist. Dann kann Deep Learning ausschließlich für das Lesen des Textes verwendet werden, womit sich massiv Rechenkapazität einsparen lässt. Dies ist insbesondere dann von Bedeutung, wenn Deep OCR auf einer weniger performanten Hardware läuft. Kann aufgrund von Vorinformation auf das Finden des Textes verzichtet werden, lässt sich auf einer Standard-CPU eine Ausführungszeit von etwa 10ms realisieren. Auf einer Midrange-GPU beträgt die Laufzeit sogar nur 5ms, was für eine Deep-Learning-Anwendung sehr schnell ist.

Seiten: 1 2Auf einer Seite lesen

MVTec Software GmbH

Das könnte Sie auch Interessieren