Eine neue, von MIT und Meta entwickelte Technik für die Modellierung von 3D-Szenen könnte zu sichereren autonomen Fahrzeugen, effizienteren AR/VR-Headsets oder schnelleren Lagerrobotern führen.
Plato-NeRF ist ein Computer-Vision-System, das Lidar-Messungen mit maschinellem Lernen kombiniert, um eine 3D-Szene, einschließlich versteckter Objekte, aus nur einer Kameraansicht zu rekonstruieren, indem es Schatten ausnutzt. Hier modelliert das System das Kaninchen auf dem Stuhl genau, obwohl das Kaninchen nicht zu sehen ist.
(Bild: Credits: Mit freundlicher Genehmigung der Forscher, bearbeitet von MIT News)
Angenommen, Sie fahren in einem autonomen Fahrzeug durch einen Tunnel, aber ohne es zu wissen, hat ein Unfall den Verkehr vor Ihnen zum Stillstand gebracht. Normalerweise müssten Sie sich auf das Auto vor Ihnen verlassen, um zu wissen, dass Sie abbremsen sollten. Aber was wäre, wenn Ihr Fahrzeug um das vorausfahrende Auto herum sehen und noch früher bremsen könnte?
Forschende des MIT und von Meta haben ein Computer-Vision-Verfahren entwickelt, mit dem ein autonomes Fahrzeug eines Tages genau das tun könnte. Sie haben eine Methode vorgestellt, mit der anhand von Bildern einer einzigen Kameraposition physikalisch genaue 3D-Modelle einer gesamten Szene erstellt werden können, einschließlich der Bereiche, die nicht sichtbar sind. Ihre Technik nutzt Schatten, um zu bestimmen, was in den verdeckten Teilen der Szene liegt.
Sie nennen ihren Ansatz PlatoNeRF, in Anlehnung an Platons Höhlengleichnis, eine Passage aus der "Republik" des griechischen Philosophen, in der Gefangene, die in einer Höhle angekettet sind, die Realität der Außenwelt anhand des Schattenwurfs an der Höhlenwand erkennen.
Genaue Rekonstruktionen der 3D-Geometrie
Durch die Kombination von Lidar-Technologie (Light Detection and Ranging) und maschinellem Lernen kann PlatoNeRF genauere Rekonstruktionen der 3D-Geometrie erstellen als einige bestehende KI-Techniken. Darüber hinaus ist PlatoNeRF besser in der Lage, Szenen zu rekonstruieren, in denen Schatten schwer zu erkennen sind, zum Beispiel bei starkem Umgebungslicht oder dunklen Hintergründen.
PlatoNeRF könnte nicht nur die Sicherheit autonomer Fahrzeuge verbessern, sondern auch AR/VR-Headsets effizienter machen, indem es dem Benutzer ermöglicht, die Geometrie eines Raums zu modellieren, ohne herumlaufen und Messungen vornehmen zu müssen. Es könnte auch Lagerrobotern helfen, Gegenstände in unübersichtlichen Umgebungen schneller zu finden.
Multibounce-Lidar und maschinelles Lernen
"Unsere Hauptidee war es, zwei Dinge, die zuvor in verschiedenen Disziplinen erforscht wurden, miteinander zu verbinden - Multibounce-Lidar und maschinelles Lernen. Es hat sich herausgestellt, dass man, wenn man beides zusammenbringt, eine Menge neuer Möglichkeiten findet, um das Beste aus beiden Welten zu erforschen", sagt Tzofi Klinghoffer, MIT-Absolvent in Medienkunst und -wissenschaften, Mitglied des MIT Media Lab und Hauptautor eines Artikels über PlatoNeRF.
Klinghoffer hat die Arbeit zusammen mit seinem Berater Ramesh Raskar, außerordentlicher Professor für Medienkunst und -wissenschaften und Leiter der Camera Culture Group am MIT, dem Hauptautor Rakesh Ranjan, Leiter der KI-Forschung bei Meta Reality Labs, sowie Siddharth Somasundaram am MIT und Xiaoyu Xiang, Yuchen Fan und Christian Richardt bei Meta geschrieben. Die Forschungsergebnisse werden auf der Conference on Computer Vision and Pattern Recognition vorgestellt.
Das Problem erhellen
Die Rekonstruktion einer vollständigen 3D-Szene aus einem Kamerablickwinkel ist ein komplexes Problem. Einige Ansätze des maschinellen Lernens verwenden generative KI-Modelle, die versuchen zu erraten, was sich in den verdeckten Bereichen befindet, aber diese Modelle können Objekte halluzinieren, die nicht wirklich vorhanden sind. Andere Ansätze versuchen, anhand von Schatten in einem Farbbild auf die Form verborgener Objekte zu schließen, aber diese Methoden haben Probleme, wenn die Schatten schwer zu erkennen sind.
"Vor etwa 15 Jahren hat unsere Gruppe die erste Kamera erfunden, die um Ecken 'sehen' kann, indem sie mehrere Lichtreflexionen oder 'Lichtechos' nutzt. Bei diesen Techniken wurden spezielle Laser und Sensoren verwendet, die drei Lichtreflexionen nutzten. Seitdem hat sich die Lidar-Technologie durchgesetzt, was zu unserer Forschung an Kameras geführt hat, die durch Nebel hindurch sehen können. Bei dieser neuen Arbeit werden nur zwei Lichtreflexionen verwendet, was bedeutet, dass das Signal-Rausch-Verhältnis sehr hoch ist und die Qualität der 3D-Rekonstruktion beeindruckend ist", sagt Raskar.
Mehr als zwei Lichtreflexe
In Zukunft wollen die Forscher versuchen, mehr als zwei Lichtreflexe zu verfolgen, um zu sehen, wie sich die Rekonstruktion der Szene dadurch verbessern lässt. Darüber hinaus sind sie daran interessiert, weitere Deep-Learning-Techniken anzuwenden und PlatoNeRF mit Farbbildmessungen zu kombinieren, um Texturinformationen zu erfassen.
"Während Kamerabilder von Schatten seit langem als Mittel zur 3D-Rekonstruktion untersucht werden, greift diese Arbeit das Problem im Kontext von Lidar wieder auf und zeigt signifikante Verbesserungen in der Genauigkeit der rekonstruierten verborgenen Geometrie. Die Arbeit zeigt, wie clevere Algorithmen außergewöhnliche Fähigkeiten ermöglichen können, wenn sie mit gewöhnlichen Sensoren kombiniert werden - einschließlich der Lidar-Systeme, die viele von uns heute in der Tasche tragen", sagt David Lindell, ein Assistenzprofessor im Fachbereich Informatik an der Universität Toronto, der nicht an dieser Arbeit beteiligt war.
Stand: 16.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die WIN-Verlag GmbH & Co. KG, Chiemgaustraße 148, 81549 München einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://kontakt.vogel.de/de/win abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Informationen zu den Schatten
Für PlatoNeRF bauten die MIT-Forscher auf diesen Ansätzen auf und verwendeten eine neue Sensormodalität namens Single-Photon-Lidar. Lidars kartieren eine 3D-Szene, indem sie Lichtpulse aussenden und die Zeit messen, die das Licht braucht, um zum Sensor zurückzuprallen. Da Einzelphotonen-Lidars einzelne Photonen erkennen können, liefern sie Daten mit höherer Auflösung.
Die Forscher verwenden ein Einzelphotonen-Lidar, um einen Zielpunkt in der Szene zu beleuchten. Ein Teil des Lichts prallt von diesem Punkt ab und kehrt direkt zum Sensor zurück. Der größte Teil des Lichts wird jedoch gestreut und prallt an anderen Objekten ab, bevor es zum Sensor zurückkehrt. PlatoNeRF stützt sich auf diese zweiten Lichtreflexe.
Durch die Berechnung der Zeit, die das Licht benötigt, um zweimal zu reflektieren und dann zum Lidar-Sensor zurückzukehren, erfasst PlatoNeRF zusätzliche Informationen über die Szene, einschließlich der Tiefe. Das zweite Auftreffen des Lichts enthält auch Informationen über Schatten.
Welche Punkte liegen im Schatten?
Das System verfolgt die sekundären Lichtstrahlen - diejenigen, die vom Zielpunkt zu anderen Punkten in der Szene zurückprallen - um festzustellen, welche Punkte im Schatten liegen (weil kein Licht vorhanden ist). Anhand der Lage dieser Schatten kann PlatoNeRF auf die Geometrie verborgener Objekte schließen.
Das Lidar beleuchtet nacheinander 16 Punkte und nimmt mehrere Bilder auf, die zur Rekonstruktion der gesamten 3D-Szene verwendet werden. "Jedes Mal, wenn wir einen Punkt in der Szene beleuchten, erzeugen wir neue Schatten. Da wir all diese verschiedenen Beleuchtungsquellen haben, schießen viele Lichtstrahlen umher, so dass wir den Bereich herausschneiden, der verdeckt ist und außerhalb des sichtbaren Auges liegt", sagt Klinghoffer.
Eine erfolgreiche Kombination
Der Schlüssel zu PlatoNeRF ist die Kombination von Multibounce-Lidar mit einem speziellen Modell des maschinellen Lernens, dem so genannten neuronalen Strahlungsfeld (NeRF). Ein NeRF kodiert die Geometrie einer Szene in den Gewichten eines neuronalen Netzes, was dem Modell eine starke Fähigkeit zur Interpolation oder Schätzung neuer Ansichten einer Szene verleiht.
Diese Fähigkeit zur Interpolation führt auch zu hochpräzisen Szenenrekonstruktionen, wenn sie mit Multibounce-Lidar kombiniert wird, sagt Klinghoffer. "Die größte Herausforderung bestand darin herauszufinden, wie man diese beiden Dinge kombinieren kann. Wir mussten uns mit der Physik des Lichttransports bei Multibounce-Lidar befassen und überlegen, wie wir das mit maschinellem Lernen modellieren können", sagt er.
Sie verglichen PlatoNeRF mit zwei gängigen alternativen Methoden, von denen eine nur Lidar und die andere nur ein NeRF mit einem Farbbild verwendet.
Sie fanden heraus, dass ihre Methode beide Verfahren übertrifft, insbesondere wenn der Lidar-Sensor eine geringere Auflösung hat. Dies würde ihren Ansatz für den Einsatz in der realen Welt praktikabler machen, wo Sensoren mit geringerer Auflösung in kommerziellen Geräten üblich sind.
Besser um die Ecke sehen
"Vor etwa 15 Jahren hat unsere Gruppe die erste Kamera erfunden, die um Ecken 'sehen' kann, indem sie mehrere Lichtreflexionen oder 'Lichtechos' nutzt. Bei diesen Techniken wurden spezielle Laser und Sensoren verwendet, die drei Lichtreflexionen nutzten. Seitdem hat sich die Lidar-Technologie durchgesetzt, was zu unserer Forschung an Kameras geführt hat, die durch Nebel hindurch sehen können. Bei dieser neuen Arbeit werden nur zwei Lichtreflexionen verwendet, was bedeutet, dass das Signal-Rausch-Verhältnis sehr hoch ist und die Qualität der 3D-Rekonstruktion beeindruckend ist", sagt Raskar.
In Zukunft wollen die Forscher versuchen, mehr als zwei Lichtreflexe zu verfolgen, um zu sehen, wie sich die Rekonstruktion der Szene dadurch verbessern lässt. Darüber hinaus sind sie daran interessiert, weitere Deep-Learning-Techniken anzuwenden und PlatoNeRF mit Farbbildmessungen zu kombinieren, um Texturinformationen zu erfassen.
Genauere Rekonstruktion der verborgenen Geometrie
"Während Kamerabilder von Schatten seit langem als Mittel zur 3D-Rekonstruktion untersucht werden, greift diese Arbeit das Problem im Kontext von Lidar wieder auf und zeigt signifikante Verbesserungen in der Genauigkeit der rekonstruierten verborgenen Geometrie. Die Arbeit zeigt, wie clevere Algorithmen außergewöhnliche Fähigkeiten ermöglichen können, wenn sie mit gewöhnlichen Sensoren kombiniert werden - einschließlich der Lidar-Systeme, die viele von uns heute in der Tasche tragen", sagt David Lindell, ein Assistenzprofessor im Fachbereich Informatik an der Universität Toronto, der nicht an dieser Arbeit beteiligt war.
Das Paper “PlatoNeRF: 3D Reconstruction in Plato’s Cave via Single-View Two-Bounce Lidar” finden Sie hier.