Neue Bedienkonzepte für Deep Learning auf Smart-Kameras
Für Embedded-AI-Kameras, also Kameras die es ermöglichen neuronale Netze direkt auf Smart Kameras auszuführen, gibt es mittlerweile unterschiedliche Bedienkonzepte, die zum Training der neuronalen Netze angeboten werden.
Hersteller, wie z.B. Flir, IDS, NET oder Basler haben seit kurzem einen neuen Kameratyp im Programm, der es ermöglicht, neuronale Netze direkt auf einer intelligenten Kamera auszuführen. Damit das neuronale Netz trainiert werden kann, ist ein Datensatz nötig. Das Bildverarbeitungssystem hingegen wird klassisch programmiert. Dieser Übergang vom Programmieren zum Lernen stellt den Anwender aber bei der Bedienung vor neue Herausforderungen. Wie umfangreich muss der Datensatz sein, damit die relevanten Informationen enthalten sind? Was ist zu tun, wenn 2% Fehlklassifikation noch (viel) zu hoch sind? Wie kann ich die Robustheit erhöhen, damit das System auch bei Störeinflüssen bei voller Leistungsfähigkeit funktioniert? Wie kann auf geänderte Aufgabenstellungen flexibel reagiert werden? Nicht alle, am Markt verfügbaren Konzepte geben darauf eine Antwort und bieten umsetzbare Lösungen zu diesen Fragen.
Machine Vision as a Service
Folgende Konzepte, bzw. Lösungsvarianten werden derzeit angeboten:
a) Bildverarbeitungsbibliothek mit Deep-Learning-Funktionalität
b) Cloud Workflow: Daten hoch- und neuronales Netz herunterladen
c) Dienstleistung durch externe Experten
d) Machine Vision as a Service
Technisch betrachtet ist der Cloud Workflow die online Version der Bildverarbeitungsbibliothek mit Deep-Learning-Funktionalität. Ziel ist es hier, einem unerfahrenen Nutzer die Möglichkeit zu geben, mit möglichst wenigen Bilddaten ein neuronales Netz zu trainieren. Weil aber in einem kleinen Datensatz nicht alle notwendigen Informationen enthalten sind, wird mit einem technischen Trick gearbeitet, dem sogenannten Transfer Learning. Hierbei wird ein vorhandenes neuronales Netz auf eine neue Aufgabenstellung transferiert. Dazu wird typischer Weise lediglich die letzte vollvernetzte Schicht neu gelernt. Dafür sind nur wenige Minuten Trainingszeit notwendig und Datensätzen mit nur 100 Bildern können ausreichend sein. Nachteilig ist die erzielbaren Klassifikationsleistungen. Zum einen stehen dem Training aufgrund des kleinen Datenumfangs nur wenige Informationen zur Verfügung, zum anderen sind die ersten Schichten des neuronalen Netzes, die für die Informationsextraktion zuständig sind, nicht auf die neue Aufgabenstellung optimiert. Interessanter Weise stellen die Hersteller von Embedded-AI-Kameras einen entsprechenden Workflow zur Verfügung, teilweise auch als Cloudlösung, was aber die angesprochenen Probleme nicht löst.