Die Evidenz des Verborgenen Mit Schatten 3D-Szenen modellieren

Von Adam Zewe 6 min Lesedauer

Anbieter zum Thema

Eine neue, von MIT und Meta entwickelte Technik für die Modellierung von 3D-Szenen könnte zu sichereren autonomen Fahrzeugen, effizienteren AR/VR-Headsets oder schnelleren Lagerrobotern führen.

Plato-NeRF ist ein Computer-Vision-System, das Lidar-Messungen mit maschinellem Lernen kombiniert, um eine 3D-Szene, einschließlich versteckter Objekte, aus nur einer Kameraansicht zu rekonstruieren, indem es Schatten ausnutzt. Hier modelliert das System das Kaninchen auf dem Stuhl genau, obwohl das Kaninchen nicht zu sehen ist. (Bild:  Credits: Mit freundlicher Genehmigung der Forscher, bearbeitet von MIT News)
Plato-NeRF ist ein Computer-Vision-System, das Lidar-Messungen mit maschinellem Lernen kombiniert, um eine 3D-Szene, einschließlich versteckter Objekte, aus nur einer Kameraansicht zu rekonstruieren, indem es Schatten ausnutzt. Hier modelliert das System das Kaninchen auf dem Stuhl genau, obwohl das Kaninchen nicht zu sehen ist.
(Bild: Credits: Mit freundlicher Genehmigung der Forscher, bearbeitet von MIT News)

Angenommen, Sie fahren in einem autonomen Fahrzeug durch einen Tunnel, aber ohne es zu wissen, hat ein Unfall den Verkehr vor Ihnen zum Stillstand gebracht. Normalerweise müssten Sie sich auf das Auto vor Ihnen verlassen, um zu wissen, dass Sie abbremsen sollten. Aber was wäre, wenn Ihr Fahrzeug um das vorausfahrende Auto herum sehen und noch früher bremsen könnte?

Forschende des MIT und von Meta haben ein Computer-Vision-Verfahren entwickelt, mit dem ein autonomes Fahrzeug eines Tages genau das tun könnte. Sie haben eine Methode vorgestellt, mit der anhand von Bildern einer einzigen Kameraposition physikalisch genaue 3D-Modelle einer gesamten Szene erstellt werden können, einschließlich der Bereiche, die nicht sichtbar sind. Ihre Technik nutzt Schatten, um zu bestimmen, was in den verdeckten Teilen der Szene liegt.

Sie nennen ihren Ansatz PlatoNeRF, in Anlehnung an Platons Höhlengleichnis, eine Passage aus der "Republik" des griechischen Philosophen, in der Gefangene, die in einer Höhle angekettet sind, die Realität der Außenwelt anhand des Schattenwurfs an der Höhlenwand erkennen.

Genaue Rekonstruktionen der 3D-Geometrie

Durch die Kombination von Lidar-Technologie (Light Detection and Ranging) und maschinellem Lernen kann PlatoNeRF genauere Rekonstruktionen der 3D-Geometrie erstellen als einige bestehende KI-Techniken. Darüber hinaus ist PlatoNeRF besser in der Lage, Szenen zu rekonstruieren, in denen Schatten schwer zu erkennen sind, zum Beispiel bei starkem Umgebungslicht oder dunklen Hintergründen.

PlatoNeRF könnte nicht nur die Sicherheit autonomer Fahrzeuge verbessern, sondern auch AR/VR-Headsets effizienter machen, indem es dem Benutzer ermöglicht, die Geometrie eines Raums zu modellieren, ohne herumlaufen und Messungen vornehmen zu müssen. Es könnte auch Lagerrobotern helfen, Gegenstände in unübersichtlichen Umgebungen schneller zu finden.

Multibounce-Lidar und maschinelles Lernen

"Unsere Hauptidee war es, zwei Dinge, die zuvor in verschiedenen Disziplinen erforscht wurden, miteinander zu verbinden - Multibounce-Lidar und maschinelles Lernen. Es hat sich herausgestellt, dass man, wenn man beides zusammenbringt, eine Menge neuer Möglichkeiten findet, um das Beste aus beiden Welten zu erforschen", sagt Tzofi Klinghoffer, MIT-Absolvent in Medienkunst und -wissenschaften, Mitglied des MIT Media Lab und Hauptautor eines Artikels über PlatoNeRF.

Klinghoffer hat die Arbeit zusammen mit seinem Berater Ramesh Raskar, außerordentlicher Professor für Medienkunst und -wissenschaften und Leiter der Camera Culture Group am MIT, dem Hauptautor Rakesh Ranjan, Leiter der KI-Forschung bei Meta Reality Labs, sowie Siddharth Somasundaram am MIT und Xiaoyu Xiang, Yuchen Fan und Christian Richardt bei Meta geschrieben. Die Forschungsergebnisse werden auf der Conference on Computer Vision and Pattern Recognition vorgestellt.

Das Problem erhellen

Die Rekonstruktion einer vollständigen 3D-Szene aus einem Kamerablickwinkel ist ein komplexes Problem. Einige Ansätze des maschinellen Lernens verwenden generative KI-Modelle, die versuchen zu erraten, was sich in den verdeckten Bereichen befindet, aber diese Modelle können Objekte halluzinieren, die nicht wirklich vorhanden sind. Andere Ansätze versuchen, anhand von Schatten in einem Farbbild auf die Form verborgener Objekte zu schließen, aber diese Methoden haben Probleme, wenn die Schatten schwer zu erkennen sind.

"Vor etwa 15 Jahren hat unsere Gruppe die erste Kamera erfunden, die um Ecken 'sehen' kann, indem sie mehrere Lichtreflexionen oder 'Lichtechos' nutzt. Bei diesen Techniken wurden spezielle Laser und Sensoren verwendet, die drei Lichtreflexionen nutzten. Seitdem hat sich die Lidar-Technologie durchgesetzt, was zu unserer Forschung an Kameras geführt hat, die durch Nebel hindurch sehen können. Bei dieser neuen Arbeit werden nur zwei Lichtreflexionen verwendet, was bedeutet, dass das Signal-Rausch-Verhältnis sehr hoch ist und die Qualität der 3D-Rekonstruktion beeindruckend ist", sagt Raskar.

Mehr als zwei Lichtreflexe

In Zukunft wollen die Forscher versuchen, mehr als zwei Lichtreflexe zu verfolgen, um zu sehen, wie sich die Rekonstruktion der Szene dadurch verbessern lässt. Darüber hinaus sind sie daran interessiert, weitere Deep-Learning-Techniken anzuwenden und PlatoNeRF mit Farbbildmessungen zu kombinieren, um Texturinformationen zu erfassen.

"Während Kamerabilder von Schatten seit langem als Mittel zur 3D-Rekonstruktion untersucht werden, greift diese Arbeit das Problem im Kontext von Lidar wieder auf und zeigt signifikante Verbesserungen in der Genauigkeit der rekonstruierten verborgenen Geometrie. Die Arbeit zeigt, wie clevere Algorithmen außergewöhnliche Fähigkeiten ermöglichen können, wenn sie mit gewöhnlichen Sensoren kombiniert werden - einschließlich der Lidar-Systeme, die viele von uns heute in der Tasche tragen", sagt David Lindell, ein Assistenzprofessor im Fachbereich Informatik an der Universität Toronto, der nicht an dieser Arbeit beteiligt war.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Informationen zu den Schatten

Für PlatoNeRF bauten die MIT-Forscher auf diesen Ansätzen auf und verwendeten eine neue Sensormodalität namens Single-Photon-Lidar. Lidars kartieren eine 3D-Szene, indem sie Lichtpulse aussenden und die Zeit messen, die das Licht braucht, um zum Sensor zurückzuprallen. Da Einzelphotonen-Lidars einzelne Photonen erkennen können, liefern sie Daten mit höherer Auflösung.

Die Forscher verwenden ein Einzelphotonen-Lidar, um einen Zielpunkt in der Szene zu beleuchten. Ein Teil des Lichts prallt von diesem Punkt ab und kehrt direkt zum Sensor zurück. Der größte Teil des Lichts wird jedoch gestreut und prallt an anderen Objekten ab, bevor es zum Sensor zurückkehrt. PlatoNeRF stützt sich auf diese zweiten Lichtreflexe.

Durch die Berechnung der Zeit, die das Licht benötigt, um zweimal zu reflektieren und dann zum Lidar-Sensor zurückzukehren, erfasst PlatoNeRF zusätzliche Informationen über die Szene, einschließlich der Tiefe. Das zweite Auftreffen des Lichts enthält auch Informationen über Schatten.

Welche Punkte liegen im Schatten?

Das System verfolgt die sekundären Lichtstrahlen - diejenigen, die vom Zielpunkt zu anderen Punkten in der Szene zurückprallen - um festzustellen, welche Punkte im Schatten liegen (weil kein Licht vorhanden ist). Anhand der Lage dieser Schatten kann PlatoNeRF auf die Geometrie verborgener Objekte schließen.

Das Lidar beleuchtet nacheinander 16 Punkte und nimmt mehrere Bilder auf, die zur Rekonstruktion der gesamten 3D-Szene verwendet werden. "Jedes Mal, wenn wir einen Punkt in der Szene beleuchten, erzeugen wir neue Schatten. Da wir all diese verschiedenen Beleuchtungsquellen haben, schießen viele Lichtstrahlen umher, so dass wir den Bereich herausschneiden, der verdeckt ist und außerhalb des sichtbaren Auges liegt", sagt Klinghoffer.

Eine erfolgreiche Kombination

Der Schlüssel zu PlatoNeRF ist die Kombination von Multibounce-Lidar mit einem speziellen Modell des maschinellen Lernens, dem so genannten neuronalen Strahlungsfeld (NeRF). Ein NeRF kodiert die Geometrie einer Szene in den Gewichten eines neuronalen Netzes, was dem Modell eine starke Fähigkeit zur Interpolation oder Schätzung neuer Ansichten einer Szene verleiht.

Diese Fähigkeit zur Interpolation führt auch zu hochpräzisen Szenenrekonstruktionen, wenn sie mit Multibounce-Lidar kombiniert wird, sagt Klinghoffer. "Die größte Herausforderung bestand darin herauszufinden, wie man diese beiden Dinge kombinieren kann. Wir mussten uns mit der Physik des Lichttransports bei Multibounce-Lidar befassen und überlegen, wie wir das mit maschinellem Lernen modellieren können", sagt er.

Sie verglichen PlatoNeRF mit zwei gängigen alternativen Methoden, von denen eine nur Lidar und die andere nur ein NeRF mit einem Farbbild verwendet.

Sie fanden heraus, dass ihre Methode beide Verfahren übertrifft, insbesondere wenn der Lidar-Sensor eine geringere Auflösung hat. Dies würde ihren Ansatz für den Einsatz in der realen Welt praktikabler machen, wo Sensoren mit geringerer Auflösung in kommerziellen Geräten üblich sind.

Besser um die Ecke sehen

"Vor etwa 15 Jahren hat unsere Gruppe die erste Kamera erfunden, die um Ecken 'sehen' kann, indem sie mehrere Lichtreflexionen oder 'Lichtechos' nutzt. Bei diesen Techniken wurden spezielle Laser und Sensoren verwendet, die drei Lichtreflexionen nutzten. Seitdem hat sich die Lidar-Technologie durchgesetzt, was zu unserer Forschung an Kameras geführt hat, die durch Nebel hindurch sehen können. Bei dieser neuen Arbeit werden nur zwei Lichtreflexionen verwendet, was bedeutet, dass das Signal-Rausch-Verhältnis sehr hoch ist und die Qualität der 3D-Rekonstruktion beeindruckend ist", sagt Raskar.

In Zukunft wollen die Forscher versuchen, mehr als zwei Lichtreflexe zu verfolgen, um zu sehen, wie sich die Rekonstruktion der Szene dadurch verbessern lässt. Darüber hinaus sind sie daran interessiert, weitere Deep-Learning-Techniken anzuwenden und PlatoNeRF mit Farbbildmessungen zu kombinieren, um Texturinformationen zu erfassen.

Genauere Rekonstruktion der verborgenen Geometrie

"Während Kamerabilder von Schatten seit langem als Mittel zur 3D-Rekonstruktion untersucht werden, greift diese Arbeit das Problem im Kontext von Lidar wieder auf und zeigt signifikante Verbesserungen in der Genauigkeit der rekonstruierten verborgenen Geometrie. Die Arbeit zeigt, wie clevere Algorithmen außergewöhnliche Fähigkeiten ermöglichen können, wenn sie mit gewöhnlichen Sensoren kombiniert werden - einschließlich der Lidar-Systeme, die viele von uns heute in der Tasche tragen", sagt David Lindell, ein Assistenzprofessor im Fachbereich Informatik an der Universität Toronto, der nicht an dieser Arbeit beteiligt war.

Das Paper “PlatoNeRF: 3D Reconstruction in Plato’s Cave via Single-View Two-Bounce Lidar” finden Sie hier.