placeholder

OCR mit KI, aber wie?

Faktoren für die Auswahl eines OCR-Systems

Im KI-Vision-Umfeld tummeln sich viele Anbieter von OCR-Lösungen. Für versierte Anwendende sind zudem viele Open Source Werkzeuge und öffentlich zugängliche Netzarchitekturen verfügbar. Doch ohne technischen Background bleiben viele OCR-Aufgaben dennoch ungelöst. Anders bei IDS: Mit der KI-Vision-Lösung Denknet können alle Bildverarbeitungskomponenten für schnelle, zuverlässige und wirtschaftliche OCR-Aufgaben aus einer Hand geliefert und einfach ausprobiert werden.

KI & Deep Learning

Bild 1 | Die Denknet OCR liest in vielen Anwendungsfällen auch ohne Feintuning schon sicher Buchstaben und Zahlen, z.B. Informationen auf Trennscheiben, trotz erheblicher Überdruckung. – Bild: IDS Imaging Development Systems GmbH

Die Erwartungen an eine OCR (Optical Character Recognition) sind hoch. Heutzutage erwarten Anwender, dass sie alle Zeichen out-of-the-box erkennt und richtig deutet. Darüber hinaus sollte die Genauigkeit konsistent bleiben, unabhängig von Veränderungen in der Lichtsituation oder anderen Umgebungsbedingungen. Regelbasierte Ansätze haben den Nachteil, dass ihnen der Interpretationsspielraum fehlt, der bei Ansätzen mit neuronalen Netzen durch das Training mit vielen verschiedenen Beispielen erworben wird. Alleine der Einsatz modernster Technologie ist jedoch nicht ausreichend für den Projekterfolg – vielmehr geht es auch darum, OCR einfach und performant nutzbar sowie benutzerfreundlich wartbar anzubieten. Allerdings schon die reine Vielfalt an möglichen Schriftzeichen und Verfahren, wie Zeichen auf den verschiedensten Oberflächen angebracht werden, vermittelt eine Vorstellung der Herausforderungen. Die Schwierigkeiten solche komplexe visuelle Daten in strukturierte Texte umzuwandeln, umfassen Schmutz, Reflexionen sowie Formfehler durch Ritzen, Prägungen oder Lasergravuren auf festen Materialien. Zudem können überlagerte oder unvollständige Zeichen, sowie eine niedrige Pixelauflösung der Bilddaten dazu führen, dass sich Zeichen kaum mehr voneinander unterscheiden lassen. So wird z.B. eine 8 schnell zu einer 3. Was sind daher die entscheidenden Faktoren für die Auswahl eines OCR-Systems?

Reproduzierbare Genauigkeit

Eine OCR muss von Anfang an einfach funktionieren und eine hohe Leseleistung bieten, um zu überzeugen. Dazu bedarf es einer gut entwickelten Netzarchitektur, die mit vielen variantenreichen Trainingsbildern vortrainiert wurde. Hier sind Situationen aus realen Anwendung genauso unverzichtbar wie der Einsatz synthetischer Daten. Damit können nicht nur viele Sonderfälle und Variationen gelernt werden, das sorgt auch für eine weitaus robustere Erkennung der relevanten Merkmale. An dieser Stelle setzt Denknet an, die KI Vision-Lösung für individuelle Bildanalysen. Dort steht Anwendern ein performantes und ständig weiterentwickeltes Deep-OCR-Modell zur Verfügung. Alle Entwicklungsschritte sind dabei streng versioniert, sodass Anwendungsentwicklungen auf definierte Versionen zurückgreifen können, aber auch die Möglichkeit haben, auf eine neue verbesserte Version zu aktualisieren. Zur Qualitätssicherung kann die Performance und Reproduzierbarkeit der trainierten Netze in einem Quality Center gegen Beispieldatensätze geprüft und verifiziert werden, bevor eine Produktionsanlage mit der neuen Software aktualisiert wird.

Transformer & Large Language Models

Eine weitere Eigenschaft eines guten OCR Modells liegt in der Fähigkeit, nicht nur einzelne Zeichen, sondern die Zusammenhänge – bei Zeichenfolgen, wie bspw. Seriennummern oder Worten – zu erkennen und dieses Wissen auch zu berücksichtigen. Je besser die OCR auch Folgezeichen vorhersagen und das Leseergebnis damit gewichten kann, desto robuster und präziser können spezielle Anwendungsfälle gelöst werden. Die generativen und kombinatorischen Eigenschaften von Transformer-Netzen oder Large Language Modellen (LLM), wie sie ChatGPT verwendet, könn(t)en solche Vorhersagen und damit auch die Lesequalität positiv beeinflussen. Doch dabei sollte man bedenken, dass diese Architekturen in der Ausführung eher langsam sind und viele Systemressourcen benötigen. Gerade im Automatisierungsbereich sollte sich eine Bildverarbeitung nicht im Sekunden-, sondern eher im niedrigen Millisekunden-Bereich bewegen. Ein trainiertes neuronales Netz sollte deshalb schnell und leichtgewichtig bleiben, um es auch auf ’normaler Hardware‘ ausführen zu können.

Thematik: KI & Deep Learning Ausgabe: inVISION 2 (April) 2024

IDS Imaging Development Systems GmbH

Zur Firmenwebsite

MEHR ZUM THEMA

Bild: Enao Vision GmbH

QS mit dem iPhone

Bild: Evotron GmbH & Co. KG

Beleuchtungen digital einrichten und parametrieren per App

Kein Probieren mehr

Bild: Phil-Vision GmbH

Epilog

Bild: Hexagon/Waygate Technologies

Hexagon übernimmt Waygate

Baker Hughes hat eine Vereinbarung über den Verkauf seines Geschäftsbereichs Waygate Technologies an Hexagon geschlossen.

Weiterlesen: Hexagon übernimmt Waygate
Bild: Lime Rock New Energy/ Boulder Imaging Inc

Boulder Imaging erhält Kapital von Lime Rock New Energy

Boulder Imaging hat eine Wachstumsinvestition von Lime Rock New Energy erhalten.

Weiterlesen: Boulder Imaging erhält Kapital von Lime Rock New Energy
Bild: Micro-Epsilon Messtechnik GmbH & Co. KG

Micro-Epsilon: Seminar für 3D-Sensorik

Micro-Epsilon veranstaltet ein kostenfreies Seminar zur 3D-Sensorik und 3D-Messtechnik.

Weiterlesen: Micro-Epsilon: Seminar für 3D-Sensorik
Bild: Ausbildung Koordinatenmesstechnik e. V.,

Aukom mit neuer Führung

Die jüngste Generalversammlung von Aukom bei Mahr in Göttingen war von einigen Führungswechseln geprägt.

Weiterlesen: Aukom mit neuer Führung
Bilder: Zebra Technologies Europe Ltd.

3D-Inspektion von Spritzgussformen in der Kunststofffertigung

Schnell anpassungsfähig

Die 3D-Lösung LaserScan von Sentinel Vision ermöglicht eine 100% Inline-Inspektion und schnellere Fehlererkennung bei der Inspektion von Spritzgussformen. Sie basiert auf den 3D-Profilsensoren der AltiZ-Serie von Zebra Technologies…

Weiterlesen: Schnell anpassungsfähig

Pixel Photonics erhält 13,5Mio.€ Finanzierung

Das Münsteraner Deep-Tech-Unternehmen Pixel Photonics hat eine Finanzierung in Höhe von insgesamt 13,5Mio.€ bekanntgegeben.

Weiterlesen: Pixel Photonics erhält 13,5Mio.€ Finanzierung
Duwe-3d wird Teil der InnovMetric

Nach 27 Jahren der Zusammenarbeit wird die Duwe-3d AG Teil der kanadischen InnovMetric Gruppe.

Weiterlesen: Duwe-3d wird Teil der InnovMetric

Zusammenarbeit Theon Sensors & Rheinmetall

Theon Sensors, eine Tochtergesellschaft von Theon International, hat mit Rheinmetall Electronics eine strategische Vereinbarung über die Entwicklung eines stabilisierten elektrooptischen Multisensorsystems auf…

Weiterlesen: Zusammenarbeit Theon Sensors & Rheinmetall
AlpsenTek schließt Finanzierungsrunde ab

AlpsenTek hat den Abschluss seiner Finanzierungsrunde in Höhe von mehreren hundert Millionen Yuan bekannt gegeben.

Weiterlesen: AlpsenTek schließt Finanzierungsrunde ab

Kooperation Klostermann und DK Fixiersysteme

Seit Anfang März hat die Klostermann GmbH ihr Vertriebsportfolio mit den Spannsystemen von DK Fixiersysteme erweitert – für noch mehr Präzision und…

Weiterlesen: Kooperation Klostermann und DK Fixiersysteme
Stemmer Technology Days online sehen

Vom 15. bis 16. April veranstalten Stemmer Imaging und Teledyne Vision Solutions die Technology Days in München, dort werden neue Produkte und…

Weiterlesen: Stemmer Technology Days online sehen
GigE Vision 3.0. Partnerschaft zwischen Pleora und Imavix

Pleora Technologies und Imavix Engineering haben eine strategische Partnerschaft bekannt gegeben, um eine vollständig integrierte, standardkonforme GigE-Vision-3.0-Pipeline vom Sender zum Empfänger bereitzustellen.

Weiterlesen: GigE Vision 3.0. Partnerschaft zwischen Pleora und Imavix
Deutscher Vertrieb für Alkeria und Genesi

Ab sofort ist THL-Tec Services der offizielle Vertriebspartner im deutschsprachigen Raum für die Produkte des italienischen Beleuchtungsherstellers Genesi Elettronica sowie des italienischen…

Weiterlesen: Deutscher Vertrieb für Alkeria und Genesi

Bildfeld-Visualisierung im CAD-File für Embedded Designs

3D-Objektivdaten

Mit 3D-Modellen inklusive Field of View vereinfacht Phytec die Auswahl und Integration von Objektiven in Embedded-Vision-Systeme.

Weiterlesen: 3D-Objektivdaten
Bernhard Grill übernimmt geschäftsführende Leitung des Fraunhofer IIS

Professor Bernhard Grill hat zum 1. April die geschäftsführende Institutsleitung des Fraunhofer IIS übernommen.

Weiterlesen: Bernhard Grill übernimmt geschäftsführende Leitung des Fraunhofer IIS
Wenzel Technologieforum 2026

Wenzel veranstaltet am 25. Juni ein Technologieforum am Standort Wiesthal.

Weiterlesen: Wenzel Technologieforum 2026
IFR: Roboterdichte steigt weiter

Laut IFR ist die Roboterdichte 2024 in Europa, Asien und Nordamerika weiter gestiegen.

Weiterlesen: IFR: Roboterdichte steigt weiter
Neuer CEO bei Physik Instrumente (PI)

Michael Albiez tritt der Hoerbiger-Gruppe als neuer CEO von Physik Instrumente (PI) mit Hauptsitz in Karlsruhe bei.

Weiterlesen: Neuer CEO bei Physik Instrumente (PI)
Kostenfreie Tickets für Control Expert Days

Erstmals finden die Control Expert Days dieses Jahr vom 20.-21.

Weiterlesen: Kostenfreie Tickets für Control Expert Days
Innovmetric übernimmt Digisens-IP

Innovmetric hat das geistige Eigentum (IP) des französischen Unternehmens Digisens übernommen und gleichzeitig dessen Expertenteam für die Verarbeitung von Computertomografie-(CT)-Daten integriert.

Weiterlesen: Innovmetric übernimmt Digisens-IP
Neue Führungsstruktur bei Fisba Shanghai

Seit dem 1. März trägt Leo Hong die alleinige Verantwortung als General Manager von Fisba (Shanghai) Co., Ltd.

Weiterlesen: Neue Führungsstruktur bei Fisba Shanghai

Faktoren für die Auswahl eines OCR-Systems

Reproduzierbare Genauigkeit

Transformer & Large Language Models

MEHR ZUM THEMA

QS mit dem iPhone

Kein Probieren mehr

Epilog

Hexagon übernimmt Waygate

Boulder Imaging erhält Kapital von Lime Rock New Energy

Micro-Epsilon: Seminar für 3D-Sensorik

Aukom mit neuer Führung

Schnell anpassungsfähig

Pixel Photonics erhält 13,5Mio.€ Finanzierung

Duwe-3d wird Teil der InnovMetric

Zusammenarbeit Theon Sensors & Rheinmetall

AlpsenTek schließt Finanzierungsrunde ab

IFM wächst um +10%

Voidsy erhält österreichischen Gründungspreis Phönix

Kooperation Klostermann und DK Fixiersysteme

Stemmer Technology Days online sehen

GigE Vision 3.0. Partnerschaft zwischen Pleora und Imavix

Deutscher Vertrieb für Alkeria und Genesi

3D-Objektivdaten

Bernhard Grill übernimmt geschäftsführende Leitung des Fraunhofer IIS

Wenzel Technologieforum 2026

IFR: Roboterdichte steigt weiter

Neuer CEO bei Physik Instrumente (PI)

Kostenfreie Tickets für Control Expert Days

Innovmetric übernimmt Digisens-IP

Neue Führungsstruktur bei Fisba Shanghai

das könnte sie auch interessieren

Simulating Vision

Hohe Varianz als Herausforderung

Follow the Vibrations

Van den Heuvel wechselt zu iENSO

NEC investiert in AGI7

Bericht: Wie KI die Bildverarbeitung transformiert

AMA: Aufwärtstrend zum Jahresende 2025

Göpel Test Convention 2026