Gamer for Vision

Gamer for Vision

Crowdsourcing für die Bildverarbeitung

Ein wichtiges Thema bei autonomen Fahrzeugen ist das Machine Learning. Hunderttausende von Beispielen aus einem sogenannten Trainingsdatensatz werden einem Algorithmus präsentiert, von denen er selbstständig lernt, wie z.B. ein Fußgänger, eine Ampel oder eine Dampfwalze aussieht. Die Herausforderung besteht darin, den Datensatz möglichst vielfältig zu gestalteten, damit alle Situationen optimal abgedeckt sind. Anschließend validiert man mit einem noch viel größeren Testdatensatz das Ergebnis: wie viele falsche (oder fehlende) Fußgänger liefert das System?
Damit ein autonomes Auto als sicher gilt, muss es – je nach Schätzung der Experten – zwischen 16 und 240Mio. Kilometer unfallfrei gefahren sein. 16Mio. Kilometer im Stadtverkehr bei durchschnittlich 40km/h entsprechen 400.000h Fahrzeit. Für ein Stereosystem, das 30fps aufnimmt, entspricht das 86,4Mrd. Bildern. Selbst wenn man pro Minute nur ein Bild als Trainings- oder Testbild verwendet, müssen auf 48Mio. Bildern Schilder, Fahrbahnmarkierungen, Fußgänger und andere Hindernisse durch Einzeichnen von Konturen annotiert werden. Aktuelle Forschungen im Transfer-Learning zeigen, dass dies teilweise sogar automatisiert werden kann. Sicher ist aber: die zu bewältigende manuelle Arbeit bleibt enorm. Die Herausforderung besteht nicht nur in der Automobilbranche. Vergleichbare Datenmengen fallen auch in der bildgebenden Medizintechnik, der Mixed/Augmented Reality, der Filmindustrie, der Satellitenfernerkundung und nahezu jeder anderen bildverarbeitenden Industrie an.

Amazon als Vorreiter

Peter Cohen hat als einer der Ersten einen Lösungsansatz für das Problem erkannt. Als Mitarbeiter von Amazon entwickelte er zwischen 2003 und 2008 das Produkt Amazon Mechanical Turk (MTurk), eine Webplattform auf der Menschen zu Beginn Doubletten von Produktbeschreibungen suchen sollten. Heute ist MTurk bekannt als eine der ersten sogenannten Crowdsourcing-Webseiten, auf der Arbeitssuchende (die Crowd) und Arbeitgeber (Requester) zusammengebracht werden, um ‚Fließbanddatenarbeit‘ wie z.B. oben beschriebene Annotation zu erledigen. Allerdings funktioniert das Arbeitgeberprinzip hier anders als gewohnt: man stellt Aufgaben auf die Plattform, die von jedem Interessenten gelöst werden können. Diese arbeiten freiwillig und bekommen pro Aufgabe eine kleine Summe Geld. Der Arbeitgeber kann sich aber weder darauf verlassen, dass seine Aufgaben mit guter Qualität bzw. überhaupt gelöst werden. Dafür steht aber ein dynamischer, rund um die Uhr verfügbarer und relativ kostengünstiger Pool an Arbeitern zur Verfügung. In der Bildverarbeitung hat Luis van Ahn ab 2006 die wissenschaftliche Welt mit seinem ESP Game aufgemischt. Ähnlich wie bei MTurk entwickelte er ein Spiel, bei dem Menschen den Inhalt eines Bildes beschreiben sollten. Damit die Korrektheit sichergestellt wurde, mussten in Anlehnung an Experimente zur außersinnlichen Wahrnehmung (engl. ESP) zwei unabhängige Personen auf die gleichen Begriffe kommen, um maximal viele Punkte zu erhalten. Die Idee wurde schnell von Google gekauft – ebenso wie ReCaptcha, eine weitere Idee van Ahns. Heute existieren zahlreiche Firmen, die viele unterschiedliche Varianten des Crowdsourcing anbieten. Eine Übersicht findet man unter www.crowdsourcing.org.

Sechs Jahre Arbeit/Tag durch Gamer

Speziell in der Bildverarbeitung stellt sich heraus, dass sich die meisten Probleme mit Textlabels, Boxen, Konturen oder Korrespondenzen lösen lassen. Kann ein Computer diese noch nicht automatisch erkennen, sorgt seit Kurzem die Pallas Ludens GmbH für Ergebnisse. Die Firma hat sich der Aufgabe verschrieben, automatische Bildverarbeitungsmethoden von der Segmentierung über den optischen Fluss bis hin zur photogrammetrischen 3D-Rekonstruktion überall dort mit menschlicher Intuition anzureichern, wo diese Verfahren bis dato versagen. Kunden wie z.B. Daimler oder Zeiss senden bereits Bildmaterial an die Firma, wo die Daten in automatisch erzeugbare Ergebnisse zerlegt und in durch Menschen intuitiv lösbare Miniaufgaben umgewandelt werden. Die manuellen Ergebnisse fließen so in die Algorithmen ein, dass optimale Ergebnisse garantiert werden können. Die Aufgaben werden allerdings nicht nur in Crowdsourcing-Plattformen verarbeitet. Stattdessen tauchen sie auch in Computerspielen auf, wie z.B. jenen der Firmen Bigpoint und plinga. Spieler, die sich einen besonderen Gegenstand, ein Level-Up oder einfach nur einen Haufen Gold kaufen möchten, müssen ab sofort nicht mehr mit Geld bezahlen – alternativ können sie einige Minuten lang Bilder annotieren. Nach Lösung der Aufgabe kehren die Gamer zurück ins Spiel, wo eine virtuelle Belohnung auf sie wartet. In Zukunft will man nicht nur in Spielen als Zahlungsmittel fungieren – denkbar ist jede Art von digitalem Content von Musik über Filme bis hin zu Zeitschriftenabonnements. So können bereits jetzt schon bis zu sechs Personenjahre an Arbeit pro Tag von Spielern erledigt werden.

Zahlreiche Spielregeln

Crowdsourcing bringt jedoch auch viele Herausforderungen mit sich. Aktuelle Publikationen der Gründer zeigen: die Qualitätssicherung der Ergebnisse ist das oberste Ziel. Eine Plattform wie MTurk bietet dazu zwar Hilfsmittel, diese müssen jedoch professionell eingesetzt und kontinuierlich überwacht werden. Hinzu kommen Fragestellungen, wer welche Aufgaben sehen darf und wie vor der Verteilung der Bilder die Privatsphäre der möglicherweise darauf abgebildeten Personen geschützt werden kann. Hinzu kommt, dass die Crowd ein optimales User Interface benötigt, das auch bei extrem kurzen Aufmerksamkeitsspannen die zu erledigende Aufgabe vermittelt und deren Lösung vereinfacht. Die Crowd ist auch keineswegs so anonym, wie sie zunächst klingt: einzelnen Benutzern muss Feedback zur Verbesserung ihrer Ergebnisse gegeben und Fragen müssen beantwortet werden. Wer absichtlich falsche Ergebnisse abliefert muss verwarnt und gegebenenfalls in Zukunft blockiert werden. Hierzu wurde eine Benutzeroberflächen entwickelt, Methoden der Bildverarbeitung und Machine Learning zur Qualitätssicherung integriert und zahlreiche Elemente der Gamification für ihre Crowds ersonnen. „Das Lösen von Aufgaben macht unseren Crowds größtenteils Spaß“, so Jonas Andrulis, Geschäftsführer des Unternehmens. „Bei mehreren Personenjahren Arbeit pro Tag können durch Pallas Ludens heute schon Millionen von Bilder pro Tag bearbeitet werden. Wir sprechen mit vielen möglichen Partnern um unsere Helfer auch außerhalb von rein virtuellen Gütern zu belohnen. Langfristig können wir mit dieser Art von Datenfließband eine neue industrielle Revolution einleiten.“

Thematik: Allgemein
http://pallas-ludens.com

Das könnte Sie auch Interessieren

Bild: 8tree GmbH
Bild: 8tree GmbH
Zehn Jahre 8tree

Zehn Jahre 8tree

8tree feiert dieses Jahr ihr zehnjähriges Jubiläum. Gegründet 2012 von Erik Klaas und Arun Chhabra, haben die beiden die fast-/dentCheck Technologie entwickelt zur optischen Überprüfung von Dellen.