Neuronale Strahlungsfelder Scharfe 4D-Rekonstruktionen aus unscharfen Videos

Verantwortliche:r Redakteur:in: Andreas Müller 4 min Lesedauer

Anbieter zum Thema

Forschende entwickeln ein Framework, mit dem aus unscharfen Videos, mit alltäglichen Handheld-Geräten aufgenommen, neuronale Strahlungsfelder (NeRF) für scharfe Rekonstruktionen erstellt werden können. Es könnte etwa das Szenenverständnis und die Sicherheit für Roboter verbessern und den Bedarf an speziellen Aufnahmeeinrichtungen für VR und AR verringern.

Forschende haben MoBluRF entwickelt: ein zweistufiges Framework, das die Erstellung genauer, scharfer 4D-NeRFs (dynamisches 3D) aus unscharfen Videos ermöglicht, die mit alltäglichen Handheld-Geräten aufgenommen wurden.(Bild:  Chung-Ang University)
Forschende haben MoBluRF entwickelt: ein zweistufiges Framework, das die Erstellung genauer, scharfer 4D-NeRFs (dynamisches 3D) aus unscharfen Videos ermöglicht, die mit alltäglichen Handheld-Geräten aufgenommen wurden.
(Bild: Chung-Ang University)

Neuronale Strahlungsfelder (Neural Radiance Fields, NeRF) sind eine Technik des maschinellen Lernens, mit der aus 2D-Bildern, die aus mehreren Blickwinkeln aufgenommen wurden, 3D-Rekonstruktionen einer Szene erstellt werden können. Diese lassen sich dann aus völlig neuen Perspektiven darstellen. Während diese Technik für statische Bilder gut etabliert ist, zeigen die vorhandenen Methoden aufgrund von Bewegungsunschärfe Schwierigkeiten, wenn monokulare Videos als Eingabe verwendet werden. Nun haben Forschende MoBluRF entwickelt. Das zweistufige Framework erlaubt das Erstellen genauer, scharfer 4D-NeRFs (dynamisches 3D) aus unscharfen Videos, die mit alltäglichen Handheld-Geräten aufgenommen wurden.

Neuronale Strahlungsfelder: Von 2D nach 3D

Neural Radiance Fields (NeRF) sind eine faszinierende Technik, die aus einer Reihe von zweidimensionalen (2D) Bildern, die aus verschiedenen Blickwinkeln aufgenommen wurden, dreidimensionale (3D) Darstellungen einer Szene erstellen. Dabei wird ein tiefes neuronales Netzwerk trainiert, um die Farbe und Dichte an jedem Punkt im 3D-Raum vorherzusagen. Dazu werden imaginäre Lichtstrahlen von der Kamera durch jedes Pixel in allen Eingabebildern geworfen, wobei Punkte entlang dieser Strahlen mit ihren 3D-Koordinaten und Blickrichtung abgetastet werden. Anhand dieser Informationen rekonstruiert NeRF die Szene in 3D und kann sie aus völlig neuen Perspektiven rendern, ein Prozess, der als Novel View Synthesis (NVS) bekannt ist.

Nachteile herkömmlicher Verfahren

Neben Standbildern lässt sich auch ein Video verwenden, wobei jedes Einzelbild des Videos als statisches Bild behandelt wird. Allerdings sind die bestehenden Verfahren sehr empfindlich gegenüber der Qualität der Videos. Videos, die mit einer einzigen Kamera aufgenommen wurden, beispielsweise mit einem Smartphone oder einer Drohne, leiden zwangsläufig unter Bewegungsunschärfe, die durch schnelle Objektbewegungen oder Verwacklungen der Kamera entsteht. Dies erschwert es, scharfe, dynamische NVS zu erzeugen. Der Grund dafür ist, dass die meisten bestehenden NVS-Methoden auf der Grundlage von Schärfung für statische Mehrfachansichten entwickelt wurden, die globale Kamerabewegungen und lokale Objektbewegungen nicht berücksichtigen. Darüber hinaus führen unscharfe Videos häufig zu ungenauen Schätzungen der Kameraposition und zu einem Verlust der geometrischen Präzision.

Zweistufige Methode zur Entfernung von Bewegungsunschärfe

Um diese Probleme anzugehen, hat ein Forschungsteam unter der gemeinsamen Leitung von Assistenzprofessor Jihyong Oh von der Graduate School of Advanced Imaging Science (GSIAM) an der Chung-Ang University (CAU) in Korea und Professor Munchurl Kim vom Korea Advanced Institute of Science and Technology (KAIST) Korea, zusammen mit Minh-Quan Viet Bui und Jongmin Park MoBluRF entwickelt, eine zweistufige Methode zur Bewegungsunschärfeentfernung für NeRFs.

„Unser Framework ist in der Lage, scharfe 4D-Szenen zu rekonstruieren und NVS aus unscharfen monokularen Videos mithilfe von Bewegungszerlegung zu ermöglichen, wobei die Maskenüberwachung vermieden wird, was den NeRF-Bereich erheblich voranbringt“, erklärt Dr. Oh. Ihre Studie wurde am 28. Mai 2025 online verfügbar gemacht und am 1. September 2025 in Band 47, Ausgabe 09 der IEEE Transactions on Pattern Analysis and Machine Intelligence veröffentlicht.

MoBluRF besteht aus zwei Hauptphasen: Base Ray Initialization (BRI) und Motion Decomposition-based Deblurring (MDD). Bestehende NVS-Verfahren auf Basis der Entunschärfung versuchen, versteckte scharfe Lichtstrahlen in unscharfen Bildern, sogenannte latente scharfe Strahlen, durch Transformation eines Strahls, des sogenannten Basisstrahls, vorherzusagen. Die direkte Verwendung von Eingangsstrahlen in unscharfen Bildern als Basisstrahlen kann jedoch zu ungenauen Vorhersagen führen. BRI behebt dieses Problem, indem es dynamische 3D-Szenen aus unscharfen Videos grob rekonstruiert und die Initialisierung von „Basisstrahlen” aus ungenauen Kamerastrahlern verfeinert.

Neuartige Verlustfunktionen

Anschließend werden diese Basisstrahlen in der MDD-Phase verwendet, um latente scharfe Strahlen durch eine Methode zur inkrementellen Vorhersage latenter scharfer Strahlen (ILSP) genau vorherzusagen. ILSP zerlegt Bewegungsunschärfe schrittweise in globale Kamerabewegungs- und lokale Objektbewegungskomponenten, wodurch die Genauigkeit der Entunschärfung erheblich verbessert wird. MoBluRF führt außerdem zwei neuartige Verlustfunktionen ein: eine, die statische und dynamische Bereiche ohne Bewegungsmasken trennt, und eine andere, die die geometrische Genauigkeit dynamischer Objekte verbessert – zwei Bereiche, in denen bisherige Methoden Schwierigkeiten hatten.

Robust gegenüber unterschiedlichen Unschärfegraden

Durch dieses Design könnte MoBluRF die derzeitigen Methoden in verschiedenen Datensätzen sowohl quantitativ als auch qualitativ deutlich übertreffen. Es ist außerdem robust gegenüber unterschiedlichen Graden der Unschärfe.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

„Durch die Entschärfung und 3D-Rekonstruktion von gelegentlichen Handaufnahmen ermöglicht unser Framework Smartphones und anderen Verbrauchergeräten die Erstellung schärferer und immersiverer Inhalte“, bemerkt Dr. Oh. „Es könnte auch dazu beitragen, gestochen scharfe 3D-Modelle von verwackelten Aufnahmen aus Museen zu erstellen, das Szenenverständnis und die Sicherheit für Roboter und Drohnen zu verbessern und den Bedarf an speziellen Aufnahmeeinrichtungen in der virtuellen und erweiterten Realität zu reduzieren.“

MoBluRF markiert eine neue Richtung für NeRFs und ermöglicht hochwertige 3D-Rekonstruktionen aus gewöhnlichen, mit Alltagsgeräten aufgenommenen, unscharfen Videos.

Weitere Informationen:

Chung-Ang Universität: https://neweng.cau.ac.kr/index.do

Assistant Professor Jihyong Oh: https://scholarworks.bwise.kr/cau/researcher-profile?ep=1528

Referenz

Titel des Originalartikels: MoBluRF: Motion Deblurring Neural Radiance Fields for Blurry Monocular Video

Zeitschrift: IEEE Transactions on Pattern Analysis and Machine Intelligence

DOI: 10.1109/TPAMI.2025.3574644