Präzisionssuche

3D-Matching mit Instance Segmentation beim Bin Picking
Bei der präzisen Lokalisierung von Objekten in automatisierten Fertigungsszenarien helfen Deep-Learning-basierte Vision-Technologien wie Object Detection und semantische Segmentierung. Eine Kombination der Vorteile beider Verfahren bietet Instance Segmentation. Diese nutzt die Stärken beider Methoden, um den Suchbereich des oberflächenbasierten 3D-Matchings auch in komplexen Anwendungsfällen präzise einzuschränken.
Bild 1 I Mit Hilfe von Deep Learning gefundene Objektregionen ermöglichen effizientere 3D-Matching-Prozesse.
Mit Hilfe von Deep Learning gefundene Objektregionen ermöglichen effizientere 3D-Matching-Prozesse. – Bild: MVTec Software GmbH

In hochautomatisierten Produktionsszenarien ist es unerlässlich, die Position und Ausrichtung von verschiedensten 3D-Objekten präzise zu bestimmen. Moderne Bildverarbeitungssysteme bieten hierfür Verfahren wie das oberflächenbasierte 3D-Matching. Dieses unterstützt beispielsweise Roboter beim Bin Picking. Allerdings liegen dabei die Teile in dem Behälter typischerweise in unterschiedlichen Ausrichtungen kreuz und quer übereinander. Um die genaue Position der Teile zu bestimmen und einen exakten Griff des Roboterarms zu ermöglichen, analysiert die Bildverarbeitung verschiedene digitale Bilddaten wie Grauwert- und 3-Kanal-RGB-Farbbilder. Dabei kann die Laufzeit und Genauigkeit der Applikation unter Zuhilfenahme manueller Vorverarbeitung optimiert werden. Bei einer großen Anzahl verschiedener, zu lokalisierender Objekte entsteht jedoch ein hoher Aufwand, da jedes Werkstück individuell parametrisiert und feinjustiert werden muss. Modellexperimente haben gezeigt, dass eine weitere Herausforderung in den Materialeigenschaften bestehen kann. So lassen sich insbesondere metallische, stark reflektierende Gegenstände nur schwer lokalisieren, was den Bin Picking Prozess behindert. Zudem können in einigen Fällen Probleme durch relativ lange Laufzeiten auftreten. Diese ergeben sich daraus, dass im Rahmen des Matching-Vorgangs vergleichsweise viele irrelevante Datenpunkte (etwa des Hintergrunds) mitberücksichtigt werden.

Einschränkung der Suchregion

Für ein effizienteres Matching und robustere Erkennungsergebnisse macht es daher Sinn, die Suchregion einzuschränken. Auch hierfür ist jedoch eine manuelle Vorverarbeitung erforderlich, die in komplexen Anwendungsszenarien einen hohen Aufwand nach sich zieht. KI-Verfahren wie etwa Deep Learning können hier Unterstützung bieten. Deren Vorteil liegt im Konzept des „Ende-zu-Ende-Lernens“. Dabei ermittelt der Algorithmus durch die Analyse von Trainingsdaten selbstständig die markantesten und aussagekräftigsten Merkmale für jede Klasse oder jedes Objekt. Basierend auf den Daten lässt sich so ein generisches Modell trainieren, das viele verschiedene Objekte in 2D-Bilddaten mit sehr hoher Genauigkeit lokalisieren kann. In moderner Machine-Vision-Software wie z.B. Halcon sind diese Algorithmen bereits enthalten. Deep-Learning-Methoden können dadurch beispielsweise zur Vorlokalisierung der zu greifenden Objekte genutzt werden, wodurch sich die Laufzeit von Matching-Anwendungen verringern und ein sehr präzises Suchergebnis realisieren lässt. Dabei kommen grundsätzlich zwei verschiedene Verfahren in Betracht – Object Detection und semantische Segmentierung. Erstere lokalisiert trainierte Objektklassen und identifiziert sie mit einem umschreibenden Rechteck (Bounding Box). Sich berührende oder teilweise überlappende Objekte werden ebenfalls getrennt, was das Erkennen einzelner Objekt-Instanzen ermöglicht. Für das oberflächenbasierte Matching lässt sich die Suchregion dann auf die gefundenen Rechtecke reduzieren, was zu kürzeren Matching-Laufzeiten führen kann. Bei einer ungünstigen Lage kann die Suchregion jedoch über das Objekt hinausragen, was den Prozess möglicherweise verlangsamt und/oder zu fehlerhaften Suchergebnissen führt.

Instance Segmentation

Beim zweiten Deep-Learning-basierten Verfahren handelt es sich um die semantische Segmentierung. Angewandt auf 2D-Bilddaten liefert sie pixelgenaue Regionen für jede Objektklasse im Bild. Damit lässt sich der Suchraum zwar ebenfalls eingrenzen, jedoch werden verschiede Objekte nicht vereinzelt, was die relevante Such-Region für das Matching unnötig vergrößert. Beide Ansätze, also Object Detection und semantische Segmentierung, lassen sich in einer ausgefeilten Lösung perfekt zusammenführen: Das in Halcon integrierte Feature ´Instance Segmentation´ kombiniert die Vorteile beider Methoden und ermöglicht sowohl individuelle Objektinstanzen als auch eine pixelgenaue Segmentierung. Die ausgegebene Region beschreibt den exakten Bildbereich, der das betreffende Objekt enthält. Die Punktewolke lässt sich dann auf Grundlage der bekannten Korrelation zwischen 2D-Bilddaten und 3D-Daten reduzieren. Das bedeutet, dass nur 3D-Daten, die sich auf die im 2D-Bild identifizierten Regionen beziehen, für die weitere Verarbeitung verwendet werden können. Das oberflächenbasierte 3D-Matching wird somit nur auf einem Bruchteil der Daten durchgeführt, was die Laufzeit deutlich reduzieren kann. Die Vorsegmentierung auf Basis von 2D-Daten ermöglicht zudem eine noch robustere Positionsschätzung von Objekten. Instance Segmentation bietet also viele Vorteile: Der Suchbereich wird gezielt eingeschränkt, die Laufzeit optimiert und die Genauigkeit der Suchresultate verbessert.

MVTec Software GmbH

Das könnte Sie auch Interessieren

Bild: TeDo Verlag GmbH
Bild: TeDo Verlag GmbH
Webinar Spectral Imaging

Webinar Spectral Imaging

Am 7. Mai findet um 14 Uhr das inVISION TechTalk Webinar ‚Spectral Imaging‘ statt. Dabei stellen Vision & Control (Tailored Optics and Lighting for Hyper- and Multispectral Imaging), Lucid Vision (Advanced sensing with latest SWIR and UV cameras) und Baumer (Inspect the invisible with powerful SWIR & UV Cameras) verschiedene Trends zu SWIR, UV und Hyperspectral Imaging vor.