Forschende entwickeln ein Framework, mit dem aus unscharfen Videos, mit alltäglichen Handheld-Geräten aufgenommen, neuronale Strahlungsfelder (NeRF) für scharfe Rekonstruktionen erstellt werden können. Es könnte etwa das Szenenverständnis und die Sicherheit für Roboter verbessern und den Bedarf an speziellen Aufnahmeeinrichtungen für VR und AR verringern.
Forschende haben MoBluRF entwickelt: ein zweistufiges Framework, das die Erstellung genauer, scharfer 4D-NeRFs (dynamisches 3D) aus unscharfen Videos ermöglicht, die mit alltäglichen Handheld-Geräten aufgenommen wurden.
(Bild: Chung-Ang University)
Neuronale Strahlungsfelder (Neural Radiance Fields, NeRF) sind eine Technik des maschinellen Lernens, mit der aus 2D-Bildern, die aus mehreren Blickwinkeln aufgenommen wurden, 3D-Rekonstruktionen einer Szene erstellt werden können. Diese lassen sich dann aus völlig neuen Perspektiven darstellen. Während diese Technik für statische Bilder gut etabliert ist, zeigen die vorhandenen Methoden aufgrund von Bewegungsunschärfe Schwierigkeiten, wenn monokulare Videos als Eingabe verwendet werden. Nun haben Forschende MoBluRF entwickelt. Das zweistufige Framework erlaubt das Erstellen genauer, scharfer 4D-NeRFs (dynamisches 3D) aus unscharfen Videos, die mit alltäglichen Handheld-Geräten aufgenommen wurden.
Neuronale Strahlungsfelder: Von 2D nach 3D
Neural Radiance Fields (NeRF) sind eine faszinierende Technik, die aus einer Reihe von zweidimensionalen (2D) Bildern, die aus verschiedenen Blickwinkeln aufgenommen wurden, dreidimensionale (3D) Darstellungen einer Szene erstellen. Dabei wird ein tiefes neuronales Netzwerk trainiert, um die Farbe und Dichte an jedem Punkt im 3D-Raum vorherzusagen. Dazu werden imaginäre Lichtstrahlen von der Kamera durch jedes Pixel in allen Eingabebildern geworfen, wobei Punkte entlang dieser Strahlen mit ihren 3D-Koordinaten und Blickrichtung abgetastet werden. Anhand dieser Informationen rekonstruiert NeRF die Szene in 3D und kann sie aus völlig neuen Perspektiven rendern, ein Prozess, der als Novel View Synthesis (NVS) bekannt ist.
Nachteile herkömmlicher Verfahren
Neben Standbildern lässt sich auch ein Video verwenden, wobei jedes Einzelbild des Videos als statisches Bild behandelt wird. Allerdings sind die bestehenden Verfahren sehr empfindlich gegenüber der Qualität der Videos. Videos, die mit einer einzigen Kamera aufgenommen wurden, beispielsweise mit einem Smartphone oder einer Drohne, leiden zwangsläufig unter Bewegungsunschärfe, die durch schnelle Objektbewegungen oder Verwacklungen der Kamera entsteht. Dies erschwert es, scharfe, dynamische NVS zu erzeugen. Der Grund dafür ist, dass die meisten bestehenden NVS-Methoden auf der Grundlage von Schärfung für statische Mehrfachansichten entwickelt wurden, die globale Kamerabewegungen und lokale Objektbewegungen nicht berücksichtigen. Darüber hinaus führen unscharfe Videos häufig zu ungenauen Schätzungen der Kameraposition und zu einem Verlust der geometrischen Präzision.
Zweistufige Methode zur Entfernung von Bewegungsunschärfe
Um diese Probleme anzugehen, hat ein Forschungsteam unter der gemeinsamen Leitung von AssistenzprofessorJihyong Oh von der Graduate School of Advanced Imaging Science (GSIAM) an der Chung-Ang University (CAU) in Korea und Professor Munchurl Kim vom Korea Advanced Institute of Science and Technology (KAIST) Korea, zusammen mit Minh-Quan Viet Bui und Jongmin Park MoBluRF entwickelt, eine zweistufige Methode zur Bewegungsunschärfeentfernung für NeRFs.
„Unser Framework ist in der Lage, scharfe 4D-Szenen zu rekonstruieren und NVS aus unscharfen monokularen Videos mithilfe von Bewegungszerlegung zu ermöglichen, wobei die Maskenüberwachung vermieden wird, was den NeRF-Bereich erheblich voranbringt“, erklärt Dr. Oh. Ihre Studie wurde am 28. Mai 2025 online verfügbar gemacht und am 1. September 2025 in Band 47, Ausgabe 09 der IEEE Transactions on Pattern Analysis and Machine Intelligence veröffentlicht.
MoBluRF besteht aus zwei Hauptphasen: Base Ray Initialization (BRI) und Motion Decomposition-basedDeblurring (MDD). Bestehende NVS-Verfahren auf Basis der Entunschärfung versuchen, versteckte scharfe Lichtstrahlen in unscharfen Bildern, sogenannte latente scharfe Strahlen, durch Transformation eines Strahls, des sogenannten Basisstrahls, vorherzusagen. Die direkte Verwendung von Eingangsstrahlen in unscharfen Bildern als Basisstrahlen kann jedoch zu ungenauen Vorhersagen führen. BRI behebt dieses Problem, indem es dynamische 3D-Szenen aus unscharfen Videos grob rekonstruiert und die Initialisierung von „Basisstrahlen” aus ungenauen Kamerastrahlern verfeinert.
Neuartige Verlustfunktionen
Anschließend werden diese Basisstrahlen in der MDD-Phase verwendet, um latente scharfe Strahlen durch eine Methode zur inkrementellen Vorhersage latenter scharfer Strahlen (ILSP) genau vorherzusagen. ILSP zerlegt Bewegungsunschärfe schrittweise in globale Kamerabewegungs- und lokale Objektbewegungskomponenten, wodurch die Genauigkeit der Entunschärfung erheblich verbessert wird. MoBluRF führt außerdem zwei neuartige Verlustfunktionen ein: eine, die statische und dynamische Bereiche ohne Bewegungsmasken trennt, und eine andere, die die geometrische Genauigkeit dynamischer Objekte verbessert – zwei Bereiche, in denen bisherige Methoden Schwierigkeiten hatten.
Robust gegenüber unterschiedlichen Unschärfegraden
Durch dieses Design könnte MoBluRF die derzeitigen Methoden in verschiedenen Datensätzen sowohl quantitativ als auch qualitativ deutlich übertreffen. Es ist außerdem robust gegenüber unterschiedlichen Graden der Unschärfe.
Stand: 16.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die WIN-Verlag GmbH & Co. KG, Chiemgaustraße 148, 81549 München einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://kontakt.vogel.de/de/win abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
„Durch die Entschärfung und 3D-Rekonstruktion von gelegentlichen Handaufnahmen ermöglicht unser Framework Smartphones und anderen Verbrauchergeräten die Erstellung schärferer und immersiverer Inhalte“, bemerkt Dr. Oh. „Es könnte auch dazu beitragen, gestochen scharfe 3D-Modelle von verwackelten Aufnahmen aus Museen zu erstellen, das Szenenverständnis und die Sicherheit für Roboter und Drohnen zu verbessern und den Bedarf an speziellen Aufnahmeeinrichtungen in der virtuellen und erweiterten Realität zu reduzieren.“
MoBluRF markiert eine neue Richtung für NeRFs und ermöglicht hochwertige 3D-Rekonstruktionen aus gewöhnlichen, mit Alltagsgeräten aufgenommenen, unscharfen Videos.