3D im Härtetest

3D im Härtetest

Expertenrunde: 3D-Bildverarbeitungsverfahren im Vergleich

3D-Bildverarbeitung ist mit unterschiedlichen Verfahren möglich. Aber welches System ist das richtige für meine Applikation? Um Licht in den (Verfahrens-)Dschungel zu bringen, fand auf dem ‚View Summit 2015‘, veranstaltet von der Pyramid Computer GmbH, eine Expertenrunde zu diesem Thema statt. Dabei standen drei Firmen mit unterschiedlichen 3D-Verfahren Rede und Antwort. Verglichen wurden Coded-Light und aktive (IR) Stereoskopie (Björn Taubert, Intel), Time-of-Flight (Dr. Robert Hranitzky, Bluetechnix) und Multistereo-RGB (Dr. Gert Ferrano, Matrix Vision).

Könnten Sie die Grundlagen von Structured Light beschreiben?

Björn Taubert: Intel hat bereits 2013 begonnen, die ersten 3D-Kameras an Software-Entwickler zu verteilen. Mittlerweile haben wir zwei Kameratypen im Portfolio. Die eine ist vom User abgewandt (Intel RealSense Camera R200) und in Geräten wie 2in1 und Tablets verbaut. Die andere ist dem User zugewandt (Intel RealSense Camera F200) und kommt in 2in1-Geräten oder in All-in-One PCs zum Einsatz. Die Front-Facing-Kameras funktionieren nach einem Coded-Light-Verfahren – vergleichbar mit dem Structured-Light-Ansatz – bei dem aufgenommene Verzerrungen in dem ausgesandten codierten IR-Licht zur Berechnung der Tiefe genutzt werden. Die Rear-Facing Kameras beruhen auf der IR-Stereoskopie. Sie verarbeiten die RGB- und IR-Daten von zwei Kameras und können so 3D-Daten berechnen. Dieser Prozess läuft übrigens im menschlichen Auge sehr ähnlich ab.

Wie funktioniert Time-of-Flight?

Dr. Robert Hranitzky: Time-of-Flight (ToF) ist eigentlich ein Überbegriff, denn es gibt verschiedene Messverfahren. Auf der einen Seite die Pulslaufzeitmessung, bei der Lichtpulse ausgesendet werden, die von den zu vermessenden Objekten reflektiert werden. Dabei misst man die Zeit, die der Puls braucht, um vom Ziel wieder zurück zur Kamera zu gelangen. Beim PMD-Verfahren verwendet man dagegen eine modulierte Lichtquelle, also Licht mit einer hohen Frequenz von bis zu 50MHz. Es gibt aber auch bereits erste Systeme, die sogar bis 80MHz messen. Dabei wird die Phasenlaufzeit aufgenommen und die Kamera berechnet daraus die Entfernung. Dies erfolgt durch die Aufnahme von Intensitätsbildern, aus denen mittels mathematischer Verfahren zurückgerechnet wird, wie weit das Objekt entfernt ist.

Wie sieht es beim Multistereo aus?

Dr. Gert Ferrano: Ähnlich wie beim menschliche Sehen. Man hat zwei Kameras, die in einem bestimmten Abstand voneinander montiert sind und die Szene unter verschiedenen Blickwinkeln aufnehmen. Aus beiden Bildern errechnet man homologe Punkte, d.h. Punkte, die in beiden Bildern vorkommen. Zusätzlich verwenden wir einen Zusatz, der in Richtung Structured Light geht, damit man Oberflächen mit Fehlstrukturen vermessen kann. Wir messen im NIR-Bereich. Zusätzlich ist noch ein Farbsensor integriert, der über die 3D-Informationen, die man aus den Bildern der zwei NIR-Kameras gewinnt, die Bildern der RGB-Kamera überlagert, sodass man ein 3D-Farbbild erhält.

Wo sind die Vorteile bei ToF?

Hranitzky: Eine ToF-Kamera hat immer eine aktive Lichtquelle, die perfekt auf das System abgestimmt ist. Man benötigt also keine weitere externe Lichtquelle. Zudem hat der Sensorchip eine Hintergrundlichtunterdrückung, was das System für Outdoor-Anwendungen prädestiniert.

Wo sehen Sie Grenzen bei ToF?

Hranitzky: Eine ToF-Kamera kann für Distanzen bis zu 50m eingesetzt werden und muss daher auch eine entsprechende Lichtleistung zur Verfügung stellen, die natürlich entsprechend Strom benötigt.

Wo sind die Vorteile bei Structured Light?

Taubert: Die Anwendungen, die Intel für beide Kameratypen definiert hat, sind andere als bei den genannten Lösungen. Bei diesem Verfahren möchten wir Gesten erfassen. Für diesen Zweck funktioniert die vom User abgewandte R200-Kamera im Indoor-Bereich bis zu 4m, im Outdoor-Bereich kann der Abstand sogar noch größer sein. Bei der F200-Front-Facing-Kamera nutzen wir ein Coded-Light-Verfahren. Dieses ist zwar genauer, verbraucht jedoch bei der Berechnung der Tiefe bei diesen Reichweiten auch mehr Strom. Ein Einsatz in den geplanten Geräteklassen wäre daher für die Nutzung weniger sinnvoll. Anwender sitzen meist unmittelbar vor ihren mobilen Endgeräten. Für die Tiefenberechnung bei Gestensteuerung oder Gesichtserkennung ist eine Entfernung von 20 bis 120cm nötig. Die F200 deckt diesen Bereich ab und ist daher vollkommen ausreichend.

Was sind die Vorteile beim Multistereo-Verfahren?

Ferrano: Es gibt nur wenige Einschränkungen, weil wir verschiedene Basisgrößen mit verschiedenen Genauigkeiten wählen können. Wir konzentrieren uns derzeit auf die Aufgaben Greifen, Positionieren sowie Finden von Objekten. Dabei haben wir eine Basisgröße von 80mm und können damit Genauigkeiten unter 10mm +/-4mm erreichen. Dies bei einen Abstand zwischen 30 und 250cm, ohne etwas am System umstellen zu müssen. Die Kalibrierung des Systems wird ein einziges Mal gemacht und kalibriert sich danach immer wieder selber nach. Die Grenzen ergeben sich durch den Bereich, in dem wir den Laser projizieren können. Derzeit sind dies ca. 3m.

Wie sieht es bei ToF mit Reichweiten und Genauigkeiten aus?

Hranitzky: Wir sind auch für Kunden interessant, die Messgerätebau machen. Meistens liefern wir den Kunden zu Beginn Evaluierungskits, die eine Grundkalibrierung haben, sodass der Kunde sich orientieren kann, wie genau das System misst. Bei einer ToF-Kamera hat die Szenerie relativ starken Einfluss auf die Messgenauigkeit. Im Moment reden wir noch von cm-Genauigkeiten bei ToF-Kameras. Eine mm-Genauigkeit wäre aber bei Messungen aus sehr kurzer Distanz vorstellbar. Zudem strahlen wir Licht mit 30MHz aus und erreichen so eine extrem hohe Wiederholgenauigkeit und damit auch Präzision. Wo es Schwierigkeiten gibt, ist mit der Kalibrierung des Systems, da ToF-Kameras Störeffekten wie z.B. Sensorrauschen oder Mehrwegeausbreitung unterliegen. Durch das Ausstrahlen des diffusen Lichts fungiert im Grunde genommen jedes Objekt als Sekundärstrahler.

Taubert: Ich möchte noch etwas zu den Stereoskopie-Einschränkungen sagen: Die Kalibrierung nehmen OEMs vor. Sollten nun große Temperaturschwankungen auftreten oder das System physisch stürzen, kann es zu mechanischen Veränderungen kommen. Diese verfälschen die Kalibrierung, auch wenn sie nur im Bereich von Millimeter-Bruchteilen liegen. Um dem vorzubeugen, sind unsere derzeit verwendeten Module 7mm dick. Zudem ist eine stabile Metallplatte eingebaut, die die Kamera vor mechanischen Einwirkungen schützt.

Hranitzky: Auch bei ToF ist Kalibrierung ein wichtiges Thema. Man sollte beim Evaluieren einer ToF-Kamera auf keinen Fall eine nicht-kalibrierte Kamera verwenden und den Kamerahersteller direkt damit konfrontieren, wie akzeptabel seine Kalibrierungen sind. Grundsätzlich spielt auch Bildverarbeitung eine Rolle: ToF-Kameras liefern 3D-Punktewolken, also mehr oder weniger gute XYZ-Positionierungen der Pixel. Das zeigt sich daran, dass inzwischen die Systemhersteller immer öfter auch Hersteller einer Punktewolke-Bibliothek sind.

Ferrano: Wenn ich auf 2,5m nur 8cm Basisabstand habe, ist das ein Höhen-/Seitenverhältnis von 1:30, daher müssen wir sehr genau sein. Wenn das System einmal kalibriert ist, schaffen wir es, die Kalibrierung zu halten, dank unserer Kooperation mit der Firma Myestro und deren Rubber-Stereo-Algorithmus.

Welche PC-Anforderungen haben die Systeme?

Ferrano: Bei unserem Verfahren wird die CPU überhaupt nicht belastet. Wir rechnen alles durch Verfahren, die stark parallelisierbar sind in der GPU, d.h. wir brauche eine Grafikkarte und in der GPU wird die Stereoüberlagerung geregelt und das Matching berechnet.

Hranitzky: Bei einer ToF-Kamera kann man die Punktewolke weitergeben und damit belastet die Tiefenrechnung nicht die CPU. Generell geht der Trend bei ToF aber in Richtung, immer mehr Pixel im Sensor zur Verfügung zu stellen. Bisher war die Anzahl der Pixel relativ gering, im Vergleich zu Stereo-Kamera-Systemen. Ist man derzeit vielleicht bei 100.000 Pixeln geht man zukünftig in Richtung Millionen Pixel. Damit steigt natürlich auch der Rechenleistungsbedarf innerhalb der Kamera. Wir haben bisher Produkte mit DSPs als interne Recheneinheit verwendet, beschäftigen uns aber zunehmend auch mit FPGAs. Auch das GPU-Thema spielt eine immer größere Rolle, d.h. entsprechende Grafikverarbeitungsleistung in einer ToF-Kamera zu integrieren.

Taubert: Für optimale Performance empfiehlt es sich jedoch, bei den Front-Facing-Kameras die fünfte oder sechste Generation der Intel-Core-Prozessoren einzusetzen. Die Rear-Facing-Kamera arbeitet am besten auf Basis von Intel Core-Prozessoren, aber funktioniert auch mit der neuesten Intel-Atom-Prozessoren-Generation.

Wie lange dauert es noch bis man Plug&Play-Systeme hat?

Hranitzky: Das hängt vom Anspruch des Kunden ab. Es gibt Branchen, da muss man sich immer noch Tage, vielleicht sogar Wochen mit der Aufgabenstellung beschäftigen. Andere möchten in wenigen Minuten das System parametrieren können. Diese (Branchen-)Lösungen wird es auch in Kürze geben.

Taubert: Die Front-Facing-Kameras sind seit über einem Jahr auf dem Markt – sie integrieren bereits Plug&Play. Entsprechende F200 gibt es mittlerweile in zahlreichen 2in1s, Notebooks und auch All-in-One PCs. Zudem bietet Intel dafür ein kostenfreies Software-Development-Kit. Für die Rear-Facing-Kamera kommen die Geräte Anfang 2016.

Ferrano: Wir haben zwar eine Bedienoberfläche, die recht einfach zu bedienen ist, da wir aber mit Licht arbeiten, ist es immer eine beratungsintensive Sache. Wir hatten eine Anwendung, bei der die Position einer Person festgestellt werden sollte. Die Person hatte eine schwarze Hose an, die auf dem Bild auf einmal weg war. Eine andere Person hatte auch eine schwarze Hose an, die aber zu sehen war. Solche Überraschungen haben sie immer bei Wechselwirkungen von Licht und Materie.

Was kosten Ihre Systeme?

Taubert: Es gibt derzeit zwei Varianten auf dem Markt. Das Intel RealSense Camera Developer Kit (Peripheriegeräte von R200 und F200) ist für 99USD erhältlich. Das Intel RealSense Smartphone Developer Kit kostet 399USD.

Hranitzky: Entwickler-Kits verkaufen wir derzeit noch zu einem Preis von ca.1.500?. Allerdings beinhaltet dies auch den Support, den der Kunde von uns bekommt. Was den ‚Straßenpreis‘ anbelangt, hängt es von der Branche und der Konfiguration ab, d.h. wie die Kamera – je nach Anwendung – konfiguriert ist. Wir sehen zwar auch ToF-Kameras im Bereich von 100 bis 200? am Markt, aber Kameras, die für komplexere Aufgabenstellung geeignet sind und mehr Beleuchtung brauchen, sind in Bereichen von 500 bis 1.000? anzusiedeln. Und dann gibt es noch Spezialsysteme, die eine Spezialanwendung erfüllen und bei denen man viel in die Elektronik investieren muss und dann Preise von 1.400 bis 2.000? ab Stückzahlen von 1.000 Stück hat.

Ferrano: Unser Kamera-System kostet knapp 4.500?.

Wo sind Einsatzbereiche?

Taubert: Gaming ist einer der wichtigen Bereiche, in dem Technik bereits vielfältig eingesetzt wird: Von Gestensteuerung der Spielfiguren über personalisierte Avatare durch Scanning sind viele Anwendungsgebiete möglich. Ein weiteres Einsatzfeld sind Videokonferenzen: Im Business-Meeting ist es möglich die Teilnehmer durch Wegnehmen des Hintergrundes größer zu machen und so ihre Gestik und Mimik besser zu verstehen. Im privaten Umfeld kann ich einen lustigen Hintergrund einsetzen – beispielsweise könnte ich den Skype-Call vom Meeresboden aus führen und Fische an mir vorbei schwimmen lassen. Diese Szenarien lassen sich mit Front-Facing-Kameras gut umzusetzen. Es gibt allerdings Unterschiede im Detailreichtum beim Einsatz von Sensoren in höheren Preisbereichen. Im Rear-Bereich funktionieren die Measurement-Szenarien für den Consumer-Einsatz durchaus gut. Es wären sogar bestimmte Einsatzszenarien im Low-Cost-Bereich in der Industrie denkbar. 2016 wird die Kamera zum ersten Mal als Stand-Alone-Produkt im Handel verfügbar sein. Wir hoffen, dass wir in Zukunft auch die Rear-Facing-Kamera einzeln anbieten können – Einsatzmöglichkeiten gäbe es viele.

Hranitzky: Hauptsächlich stammen unsere Kunden aus dem Bereich Objekterkennung/-zählung, also z.B. das Personenzählen oder das Zählen von Fahrzeugen, und das unter Outdoor-Bedingungen. Ein weiterer Bereich, der sehr gut läuft, ist Automotive, z.B. der Einbau von ToF-Kameras in Fahrzeugen zur Detektion von Menschen, aber auch im Bereich Umfeldanalyse werden sie mittlerweile eingesetzt. Immer noch forschungslastig ist die Roboter-Integration.

Ferrano: Das System ist noch relativ neu auf dem Markt, aber wir haben bereits viele Anfragen, die wir derzeit evaluieren. Ein Beispiel ist die Medizintechnik: Dort soll der Patient, bevor er durch eine Röhre durchfährt, auf eine bestimmte Achse ausgerichtet werden. Hier setzen wir unsere Kamera ein, damit wir die genaue dreidimensionale Lage des Patienten bestimmen. Weitere Anwendungen sind natürlich das Greifen von Paketen z.B. von einem Band.

Wo sehen Sie im industriellen Bereich Möglichkeiten für Structured Light?

Taubert: Ein mögliches Einsatzgebiet wären Workstations, die von vielen Mitarbeitern genutzt werden. Der durch den Login-Prozess entstehende Zeitverlust ließe sich so deutlich verringern. Ein weiteres Szenario wären Aufzüge. Die Techniker könnten sie derart programmieren, dass sie Personen erkennen und auf Grundlage bestimmter Charakteristika Aufzug-Fahrten priorisieren. Verallgemeinert lässt sich sagen: Überall dort, wo Mensch involviert sind, können wir Hilfestellung geben.

Wie viele Bilder/Sekunde nehmen die Geräte?

Hranitzky: Je nach Anwendung sind bereits 100fps machbar.

Taubert: Je nach Camera und Auflösung 60-90FPS.

Ferrano: Die Kamera schafft 25fps bei nur 5% CPU-Last.

Wie sind Ihre Erfahrungen beim Objekt-Tracking im Outdoor-Bereich bei Tageslicht und Entfernungen bis zu 50m?

Hranitzky: Hier geht es vor allem darum, wie man das Sonnenlicht unterdrückt, das in diesem Wellenlängenbereich strahlt. Ein Wechsel des Wellenlängenbereiches ist dabei eine Möglichkeit. Wir haben aber bereits Systeme, die bis 15m schon sehr passable Ergebnisse auf Äquatorebene zur Mittagszeit bieten, also bei maximaler Sonneneinstrahlung, d.h. bis ca. 200kLux. Zudem haben wir in den letzten Jahren viel Wert auf die Entwicklung leistungsstarker Beleuchtungen gelegt, die mit hoher Modulationsfrequenz angesteuert werden können und in der Lage sind, auf Distanzen von 5 bis 15m ausreichend viel Licht zu generieren, damit man bei Signaturen wie dunklen Hosen oder Haaren vernünftige Reflektionswerte bekommt.

Gibt es im Outdoor-Bereich durch Interferenzen Störungen?

Hranitzky: Störungen gibt es. Neben der Sonne stellt auch jeder andere Infrarotstrahler, der in den Wellenlängenbereich strahlt, grundsätzlich eine Störquelle dar. Unangenehm ist es, wenn eine weitere ToF-Kamera im selben Konfigurationsbereich verwendet wird. Allerdings kann man dort auf Konfigurationsebene einiges tun, damit sich die Kameras nicht wechselseitig stören, indem z.B. die Kameras zueinander synchronisiert werden. Sie können aber auch im Frequenzbereich die Kameras voneinander trennen, in dem Sie auf anderen Modulationsgrenzen arbeiten, oder aber ein Modulationssignal codieren. Man schickt über die Lichtquelle ein codiertes Signal aus, das man hinter dem Imager in einer CPU decodiert. Man verliert dabei zwar Signalrauschleistungsabstand, aber die Systeme werden stabiler.

Was ist notwendig, damit zukünftig mehr 3D-Systeme eingesetzt werden?

Taubert: Ich glaube nicht, dass es für die 3D-Bildverarbeitung eine alles in den Schatten stellende Applikation geben wird – unterschiedlichste Anwendungsgebiete münden vielmehr in speziell dafür programmierte Applikationen. Ein Argument ist und bleibt der Preis. Je günstiger die Kameras zukünftig angeboten werden können, desto mehr Geräte kommen zum Einsatz. Dies gilt zunächst für den Consumer-Bereich, ich bin aber durchaus der Meinung, dass sich der Industrie-Bereich ähnlich verhält. Sinkt der Preis, setzen sich auch dort 3D-Systeme verstärkt durch.

Hranitzky: Ich wünsche mir von den Halbleiterherstellern, dass sie mehr Auflösung sowie billigere und robustere Chips anbieten. Von den Beleuchtungsherstellern wünsche ich mir, dass ihre Halbleiter mehr Licht liefern und dabei weniger Temperatur generieren. Zudem wünsche ich mir Referenzprojekte, bei denen die Technologie einfach funktioniert und weitere Kunden einen leichteren Einstieg haben. Die Ersten sind diejenigen, die für die Anwendung kämpfen müssen.

Ferrano: Im Augenblick haben wir noch CCD-Technik in den Kameras, aber die nächste Generation verwendet dann CMOS-Sensoren, wie die IMX-Sensoren von Sony. Damit bekommen wir einige heutige Probleme deutlich besser in den Griff. 3D-Softwarepakete, welche die Kunden anwenden sollen, müssen noch deutlich einfacher werden als bisher.

Matrix Vision GmbH

Das könnte Sie auch Interessieren