Vision-Language-Modelle: Roboter effektiver in dynamischen Szenarien

Vision-Language-Modell und Planungssystem Damit Roboter in dynamischen Szenarien effektiver navigieren

12.03.2026 Verantwortliche:r Redakteur:in: Andreas Müller 4 min Lesedauer

Anbieter zum Thema

Forschende des Massachusetts Institute of Technology (MIT) haben einen auf Vision-Language-KI-Modellen basierenden Ansatz entwickelt, um visuelle Aufgaben – etwa die Navigation von Robotern – zu planen. Der Ansatz soll etwa doppelt so effektiv sein wie einige bestehende Methoden.

Ein neues KI-gestütztes System erstellt Pläne für langfristige, komplexe Aufgaben etwa doppelt so gut wie einige bestehende Methoden. Die Forscher bewerteten ihr System, indem sie untersuchten, wie gut es Pläne zur Erreichung von Zielen in sechs 2D-Gitterwelten erstellen konnte, wie sie hier gezeigt werden.(Bild: Mit freundlicher Genehmigung der Forschenden) — Ein neues KI-gestütztes System erstellt Pläne für langfristige, komplexe Aufgaben etwa doppelt so gut wie einige bestehende Methoden. Die Forscher bewerteten ihr System, indem sie untersuchten, wie gut es Pläne zur Erreichung von Zielen in sechs 2D-Gitterwelten erstellen konnte, wie sie hier gezeigt werden.
(Bild: Mit freundlicher Genehmigung der Forschenden)

Die Methode verwendet zunächst ein spezialisiertes Vision-Language-Modell, das eine Szene in einem Bild analysiert und die notwendigen Aktionen simuliert, um ein Ziel zu erreichen. Anschließend übersetzt ein zweites Modell diese Simulationen in eine Standard-Programmiersprache für Planungsprobleme und verbessert die Lösung.

Am Ende erzeugt das System automatisch eine Reihe von Dateien, die in klassische Planungssoftware eingespeist werden können. Diese berechnet anschließend einen konkreten Plan zur Zielerreichung. Dieses zweistufige System erzeugte Pläne mit einer durchschnittlichen Erfolgsrate von etwa 70 % und übertraf damit bisherige Methoden, die nur etwa 30 % erreichten.

Ein wichtiger Vorteil ist, dass das System auch neue Probleme lösen kann, die es zuvor nicht gesehen hat. Dadurch eignet es sich besonders für reale Umgebungen, in denen sich Bedingungen jederzeit ändern können.

„Unser Framework kombiniert die Vorteile von Vision-Language-Modellen – etwa ihre Fähigkeit, Bilder zu verstehen – mit den starken Planungsfähigkeiten eines formalen Solvers“, sagt Yilun Hao, Doktorandin im Fach Aeronautics and Astronautics am MIT und Hauptautorin der Studie.

„Es kann ein einzelnes Bild aufnehmen, daraus eine Simulation erstellen und schließlich einen zuverlässigen langfristigen Plan generieren, der in vielen realen Anwendungen nützlich sein könnte.“

Weitere Mitautoren und Mitautorinnen der Arbeit sind: Yongchao Chen, Chuchu Fan und Yang Zhang

Die Studie wird auf der International Conference on Learning Representations vorgestellt.

Vision-Language-Modelle, die Bilder und Text analysieren können

In den letzten Jahren untersuchten Fan und ihr Team den Einsatz generativer KI-Modelle für komplexes Denken und Planen, häufig mit großen Sprachmodellen (LLMs), die Texteingaben verarbeiten.

Viele reale Planungsprobleme – etwa roboterbasierende Montage oder autonomes Fahren – basieren jedoch auf visuellen Eingaben, die ein LLM allein nicht gut verarbeiten kann. Daher erweiterten die Forschenden ihren Ansatz auf Vision-Language-Modelle (VLMs), leistungsfähige KI-Systeme, die sowohl Bilder als auch Text analysieren können.

Allerdings haben Vision-Language-Modelle Schwierigkeiten damit, räumliche Beziehungen zwischen Objekten korrekt zu verstehen und über viele Schritte hinweg logisch zu planen. Das erschwert ihre Nutzung für langfristige Planungsaufgaben.

Gleichzeitig existieren robuste formale Planungssysteme, die sehr gute langfristige Strategien berechnen können. Diese Systeme können jedoch keine Bilder interpretieren und benötigen Fachleute, die das Problem zuerst in eine formale Sprache übersetzen.

Kombination aus KI-Vision und formaler Planung

Das Forschungsteam entwickelte deshalb ein System namens VLM-guided Formal Planning (VLMFP). Dieses System nutzt zwei spezialisierte Vision-Language-Modelle, die gemeinsam visuelle Planungsprobleme in Dateien umwandeln, die von klassischer Planungssoftware genutzt werden können.

1. ein kleineres Modell namens SimVLM beschreibt die Szene in einem Bild in natürlicher Sprache und simuliert mögliche Aktionen innerhalb dieser Szene;

2. ein größeres Modell namens GenVLM nutzt diese Beschreibung und erzeugt daraus Dateien in der Planungssprache PDDL (Planning Domain Definition Language)

Diese Dateien können anschließend in einen klassischen PDDL-Solver eingegeben werden, der einen Schritt-für-Schritt-Plan zur Lösung der Aufgabe berechnet. GenVLM vergleicht danach die Ergebnisse des Solvers mit der Simulation und verbessert die PDDL-Dateien iterativ. „Generator und Simulator arbeiten zusammen, bis sie zum gleichen Ergebnis gelangen – einer Aktionssimulation, die das Ziel erreicht“, erklärt Hao.

Ein flexibler Ansatz

Das System erzeugt zwei PDDL-Dateien: Die Domain-Datei beschreibt die Umgebung und definiert erlaubte Aktionen und Regeln. Die Problem-Datei hingegen beschreibt Anfangszustand und Ziel der aktuellen Aufgabe. Ein Vorteil dieser Struktur ist, dass die Domain-Datei für alle Aufgaben innerhalb derselben Umgebung gleich bleibt, wodurch das System leichter auf neue Situationen übertragen werden kann.

Damit die Modelle gut generalisieren können, entwickelten die Forschenden eine sorgfältige Trainingsstrategie für SimVLM. So lernte das Modell, das Ziel einer Aufgabe zu verstehen, ohne nur bekannte Muster auswendig zu lernen.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 16.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die WIN-Verlag GmbH & Co. KG, Chiemgaustraße 148, 81549 München einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://kontakt.vogel.de/de/win abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.

In Tests konnte SimVLM Szenen korrekt beschreiben, Aktionen simulieren und erkennen, ob das Ziel erreicht wurde in etwa 85 % der Experimente.

Ergebnisse

Das VLMFP-System erreichte etwa 60 % Erfolgsrate bei sechs 2D-Planungsaufgaben und über 80 % bei zwei 3D-Aufgaben, darunter die Zusammenarbeit mehrerer Roboter und die robotische Montage

Außerdem konnte es in mehr als 50 % der völlig neuen Szenarien gültige Pläne erzeugen – deutlich besser als bisherige Methoden. „Unser Framework kann auch dann generalisieren, wenn sich Regeln in verschiedenen Situationen ändern. Dadurch kann unser System viele Arten visueller Planungsprobleme lösen“, erklärt Fan.

Blick in die Zukunft

Die Forschenden möchten künftig komplexere Szenarien unterstützen und Methoden entwickeln, um Halluzinationen von KI-Modellen zu erkennen und zu reduzieren. Langfristig könnten generative KI-Modelle als autonome Agenten agieren, die die richtigen Werkzeuge auswählen, um sehr komplexe Probleme zu lösen. „Es bleibt noch viel zu tun, aber indem wir visuelle Planung einbeziehen, ist diese Arbeit ein wichtiger Teil des Puzzles“, sagt Fan.

Weitere Informationen: https://www.mit.edu/