Vision-Language-Modell und Planungssystem Damit Roboter in dynamischen Szenarien effektiver navigieren

Verantwortliche:r Redakteur:in: Andreas Müller 4 min Lesedauer

Anbieter zum Thema

Forschende des Massachusetts Institute of Technology (MIT) haben einen auf Vision-Language-KI-Modellen basierenden Ansatz entwickelt, um visuelle Aufgaben – etwa die Navigation von Robotern – zu planen. Der Ansatz soll etwa doppelt so effektiv sein wie einige bestehende Methoden.

Ein neues KI-gestütztes System erstellt Pläne für langfristige, komplexe Aufgaben etwa doppelt so gut wie einige bestehende Methoden. Die Forscher bewerteten ihr System, indem sie untersuchten, wie gut es Pläne zur Erreichung von Zielen in sechs 2D-Gitterwelten erstellen konnte, wie sie hier gezeigt werden.(Bild:  Mit freundlicher Genehmigung der Forschenden)
Ein neues KI-gestütztes System erstellt Pläne für langfristige, komplexe Aufgaben etwa doppelt so gut wie einige bestehende Methoden. Die Forscher bewerteten ihr System, indem sie untersuchten, wie gut es Pläne zur Erreichung von Zielen in sechs 2D-Gitterwelten erstellen konnte, wie sie hier gezeigt werden.
(Bild: Mit freundlicher Genehmigung der Forschenden)

Die Methode verwendet zunächst ein spezialisiertes Vision-Language-Modell, das eine Szene in einem Bild analysiert und die notwendigen Aktionen simuliert, um ein Ziel zu erreichen. Anschließend übersetzt ein zweites Modell diese Simulationen in eine Standard-Programmiersprache für Planungsprobleme und verbessert die Lösung.

Am Ende erzeugt das System automatisch eine Reihe von Dateien, die in klassische Planungssoftware eingespeist werden können. Diese berechnet anschließend einen konkreten Plan zur Zielerreichung. Dieses zweistufige System erzeugte Pläne mit einer durchschnittlichen Erfolgsrate von etwa 70 % und übertraf damit bisherige Methoden, die nur etwa 30 % erreichten.

Ein wichtiger Vorteil ist, dass das System auch neue Probleme lösen kann, die es zuvor nicht gesehen hat. Dadurch eignet es sich besonders für reale Umgebungen, in denen sich Bedingungen jederzeit ändern können.

„Unser Framework kombiniert die Vorteile von Vision-Language-Modellen – etwa ihre Fähigkeit, Bilder zu verstehen – mit den starken Planungsfähigkeiten eines formalen Solvers“, sagt Yilun Hao, Doktorandin im Fach Aeronautics and Astronautics am MIT und Hauptautorin der Studie.

„Es kann ein einzelnes Bild aufnehmen, daraus eine Simulation erstellen und schließlich einen zuverlässigen langfristigen Plan generieren, der in vielen realen Anwendungen nützlich sein könnte.“

Weitere Mitautoren und Mitautorinnen der Arbeit sind: Yongchao Chen, Chuchu Fan und Yang Zhang

Die Studie wird auf der International Conference on Learning Representations vorgestellt.

Vision-Language-Modelle, die Bilder und Text analysieren können

In den letzten Jahren untersuchten Fan und ihr Team den Einsatz generativer KI-Modelle für komplexes Denken und Planen, häufig mit großen Sprachmodellen (LLMs), die Texteingaben verarbeiten.

Viele reale Planungsprobleme – etwa roboterbasierende Montage oder autonomes Fahren – basieren jedoch auf visuellen Eingaben, die ein LLM allein nicht gut verarbeiten kann. Daher erweiterten die Forschenden ihren Ansatz auf Vision-Language-Modelle (VLMs), leistungsfähige KI-Systeme, die sowohl Bilder als auch Text analysieren können.

Allerdings haben Vision-Language-Modelle Schwierigkeiten damit, räumliche Beziehungen zwischen Objekten korrekt zu verstehen und über viele Schritte hinweg logisch zu planen. Das erschwert ihre Nutzung für langfristige Planungsaufgaben.

Gleichzeitig existieren robuste formale Planungssysteme, die sehr gute langfristige Strategien berechnen können. Diese Systeme können jedoch keine Bilder interpretieren und benötigen Fachleute, die das Problem zuerst in eine formale Sprache übersetzen.

Kombination aus KI-Vision und formaler Planung

Das Forschungsteam entwickelte deshalb ein System namens VLM-guided Formal Planning (VLMFP). Dieses System nutzt zwei spezialisierte Vision-Language-Modelle, die gemeinsam visuelle Planungsprobleme in Dateien umwandeln, die von klassischer Planungssoftware genutzt werden können.

1. ein kleineres Modell namens SimVLM beschreibt die Szene in einem Bild in natürlicher Sprache und simuliert mögliche Aktionen innerhalb dieser Szene;

2. ein größeres Modell namens GenVLM nutzt diese Beschreibung und erzeugt daraus Dateien in der Planungssprache PDDL (Planning Domain Definition Language)

Diese Dateien können anschließend in einen klassischen PDDL-Solver eingegeben werden, der einen Schritt-für-Schritt-Plan zur Lösung der Aufgabe berechnet. GenVLM vergleicht danach die Ergebnisse des Solvers mit der Simulation und verbessert die PDDL-Dateien iterativ. „Generator und Simulator arbeiten zusammen, bis sie zum gleichen Ergebnis gelangen – einer Aktionssimulation, die das Ziel erreicht“, erklärt Hao.

Ein flexibler Ansatz

Das System erzeugt zwei PDDL-Dateien: Die Domain-Datei beschreibt die Umgebung und definiert erlaubte Aktionen und Regeln. Die Problem-Datei hingegen beschreibt Anfangszustand und Ziel der aktuellen Aufgabe. Ein Vorteil dieser Struktur ist, dass die Domain-Datei für alle Aufgaben innerhalb derselben Umgebung gleich bleibt, wodurch das System leichter auf neue Situationen übertragen werden kann.

Damit die Modelle gut generalisieren können, entwickelten die Forschenden eine sorgfältige Trainingsstrategie für SimVLM. So lernte das Modell, das Ziel einer Aufgabe zu verstehen, ohne nur bekannte Muster auswendig zu lernen.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

In Tests konnte SimVLM Szenen korrekt beschreiben, Aktionen simulieren und erkennen, ob das Ziel erreicht wurde in etwa 85 % der Experimente.

Ergebnisse

Das VLMFP-System erreichte etwa 60 % Erfolgsrate bei sechs 2D-Planungsaufgaben und über 80 % bei zwei 3D-Aufgaben, darunter die Zusammenarbeit mehrerer Roboter und die robotische Montage

Außerdem konnte es in mehr als 50 % der völlig neuen Szenarien gültige Pläne erzeugen – deutlich besser als bisherige Methoden. „Unser Framework kann auch dann generalisieren, wenn sich Regeln in verschiedenen Situationen ändern. Dadurch kann unser System viele Arten visueller Planungsprobleme lösen“, erklärt Fan.

Blick in die Zukunft

Die Forschenden möchten künftig komplexere Szenarien unterstützen und Methoden entwickeln, um Halluzinationen von KI-Modellen zu erkennen und zu reduzieren. Langfristig könnten generative KI-Modelle als autonome Agenten agieren, die die richtigen Werkzeuge auswählen, um sehr komplexe Probleme zu lösen. „Es bleibt noch viel zu tun, aber indem wir visuelle Planung einbeziehen, ist diese Arbeit ein wichtiger Teil des Puzzles“, sagt Fan.

Weitere Informationen: https://www.mit.edu/