Höhere Erkennungsraten mit Multi-ToF-Plattform und Deep Learning

KI in der Tiefe

Mit einer Multi-ToF-Plattform, bei der verschiedene bildgebende Sensoren an einen Nvidia CPU+GPU basierten Hub angebunden sind, lassen sich mit Deep Learning, im Vergleich zu reinen RGB-Bildern, höhere Erkennungsleistungen erzielen.

Bild 1 | Auf der Multi-ToF-Plattform von Becom können auch leistungsfähige Deep-Learning-Anwendungen realisiert werden. (Bild: Becom Systems GmbH)

Die Evotegra GmbH begleitet Deep Learning Projekte von der Definition der Datenstrategie bis zur tiefen Systemintegration auf der jeweiligen Zielhardware. Ein sehr gutes Beispiel hierfür ist die Multi-ToF-Plattform von Becom, bei der verschiedene Sensoren an einen Nvidia CPU+GPU basierten Hub angebunden werden können. Neben Time-of-Flight (ToF) Daten, lassen sich auch Farbsensoren oder Sensoren anderer Wellenlängen (IR, Hyperspectral Imaging) anbinden und liefern zusätzliche Kanäle für erweiterte Anwendungen oder die Erhöhung der Qualität. Eine Anwendung ist die Leergutkontrolle in der Getränkeindustrie. Obwohl eine auf den ersten Blick relativ kontrollierte Umgebung, ergeben sich durch verschiedene Farben, Formen, Materialien, Verschlüsse oder Fremdkörper eine große Varianz an Szenarien im Feld. Die verwendeten ToF-Sensoren liefern neben den Tiefendaten auch ein IR-Graustufenbild. Dieses ist gut nutzbar, um das Netzwerk zu trainieren und bei schwierigen Situationen, wie Glas oder stark reflektierender Verschlüsse, robustere Ergebnisse zu liefern. Durch die aktive Beleuchtung sind die Daten zudem weitgehend unabhängig von den Umgebungsbedingungen.

Datenanalyse per KI

Wie bei jedem Projekt beginnt man mit der Definition der initialen Klassen und einer ersten Datenanalyse. Danach definiert man die Datenerfassungs-Strategie. Auch für die künstliche Intelligenz (KI) gilt das GIGO Prinzip (Garbage In, Garbage Out). Dauer und Kosten eines Projekts werden maßgeblich von der Zeit bestimmt, die man benötigt, um die Daten in der notwendigen Qualität und Quantität zu beschaffen. Eine große Menge an schlechten Daten ist ebenso problematisch wie zu wenig Daten. Ein Datensatz zum Training eines neuronalen Netzwerkes umfasst typischerweise eine bis vier Millionen Datenpunkte. Da gerade am Anfang eines Projektes in der Regel nicht so viele Daten zur Verfügung stehen, werden die Daten augmentiert, d.h. auf Basis der vorhandenen Daten werden künstliche Variationen erzeugt. Ziel im Laufe eines Projekts ist es jedoch, die künstlichen Daten durch echte Daten zu ersetzen. Ein Einsatz von Hilfskräften oder speziellen Dienstleistern zur Datenerhebung erfordert entweder hohen Nachbearbeitungsaufwand oder ist aufwendig und teuer. Stattdessen können neuronale Netzwerke bereits frühzeitig die Datenaggregation unterstützen. In zyklischen Abständen werden mit Hilfe der neu gewonnen Daten verbesserte Netzwerke trainiert. Der Aufwand für die Extraktion der Daten sinkt im Laufe eines Projektes stetig. Währenddessen kann bereits die Prozessintegration erfolgen.

Bild 2 | Multi-ToF-Hub mit Nvidia Jetson TX2 Modul. (Bild: Becom Systems GmbH)

Bessere Ergebnisse als mit RGB

Hier kommt ein Vorteil von ToF zum Tragen: der Sensor liefert ein Graustufenbild das synchron mit den drei räumlichen Kanälen X,Y,Z ist. Aufgrund der räumlichen Trennung sind die vier ToF Kanäle deutlich reicher an Informationen als bei einer RGB-Kamera. Da Farben immer von der Beleuchtung abhängig sind, bieten RGB-Informationen besonders in unkontrollierten Umgebungen oft nur wenig Vorteile gegenüber einem Graustufenbild. Ein weiterer Vorteil der ToF-Kamera ergibt sich dadurch, dass ein Label in einem Kanal pixelgenau auf die anderen Kanäle übertragen werden kann. Mit dem höheren Informationsgehalt können Deep-Learning-Lösungen grundsätzlich eine höhere Erkennungsleistung erzielen.

Deep Learning Ready

Im Rahmen der Umsetzung kundenspezifischer Lösungen kann die Evotegra Basis-Software in der Regel kostenfrei genutzt werden. Gleichzeitig bietet die Becom Multi-ToF-Plattform auf Basis des Nvidia Jetson standardmäßig eine breite Unterstützung für Deep-Learning-Algorithmen – Zusätzliche Hardware ist nicht notwendig.

Fazit

Sensorsysteme mit einer Kombination aus Bildern und räumlichen Daten, erzielen zusammen mit Deep Learning eine höhere Erkennungsleistung und damit Kostenvorteile, ohne in der Trainingsphase höhere Aufwände zu erzeugen. Die Lösungen können ein Qualitätsniveau erreichen, das qualitativ mit der visuellen Wahrnehmung des Menschen vergleichbar ist. Quantitativ sind sie dem Menschen jedoch deutlich überlegen.