Während wir jeden einzelnen Schritt einer Routineaufgabe ohne viel Nachdenken ausführen können, benötigt ein Roboter einen detaillierten Plan. Multiple KI-Modelle können Roboter dabei unterstützen, derartige Pläne transparent und situationsgerecht auszuführen.
Ein multimodales System nutzt Modelle, die auf Sprach-, Seh- und Handlungsdaten trainiert wurden.
Somit können sie Roboter bei der Entwicklung und Ausführung von Plänen für Haushalts-, Bau- und Fertigungsaufgaben unterstützen.
Eine tägliche Aufgabenliste könnte so aussehen: Geschirr spülen, Lebensmittel einkaufen und andere Kleinigkeiten. Es ist unwahrscheinlich, dass man "das erste schmutzige Geschirr aufnehmen" oder "den Teller mit einem Schwamm abwaschen" aufgeschrieben hat. Denn jeder dieser Miniaturschritte innerhalb der Aufgabe fühlt sich intuitiv an. Wir können jeden einzelnen Schritt routinemäßig und ohne viel Nachdenken ausführe. Ein Roboter hingegen benötigt einen komplexen Plan, der viele Details umschreibt.
Das Improbable AI Lab des MIT, eine Gruppe innerhalb des Computer Science and Artificial Intelligence Laboratory (CSAIL), hat diesen Maschinen mit einem neuen multimodalen Framework unter die Arme gegriffen. Denn die Lösung namens Compositional Foundation Models for Hierarchical Planning (HiP) entwickelt detaillierte, realisierbare Pläne mit dem Fachwissen von drei verschiedenen Grundmodellen. Wie OpenAIs GPT-4, das Grundmodell, auf dem ChatGPT und Bing Chat aufgebaut sind, werden diese Grundmodelle auf riesigen Datenmengen für Anwendungen wie Bilderzeugung, Textübersetzung und Robotik trainiert.
Basismodelle für Roboter ...
Im Gegensatz zu RT2 und anderen multimodalen Modellen, die auf gepaarten Seh-, Sprach- und Handlungsdaten trainiert werden, verwendet HiP drei verschiedene Basismodelle. Diese werden jeweils auf verschiedenen Datenmodalitäten trainiert. Jedes Grundmodell erfasst einen anderen Teil des Entscheidungsprozesses. Es arbeitet dann mit anderen zusammen, wenn es Zeit ist, Entscheidungen zu treffen. HiP macht den Zugang zu gepaarten Seh-, Sprach- und Handlungsdaten überflüssig, die schwer zu beschaffen sind. Das Konzept macht zudem auch den Denkprozess transparenter.
Was für einen Menschen eine alltägliche Aufgabe ist, kann für einen Roboter ein "langfristiges Ziel" sein. Bei einem solchen übergreifendes Ziel gilt es zuerst, viele kleinere Schritte zu erledigen. Zwar haben Computer-Vision-Forscher versucht, monolithische Basismodelle für dieses Problem zu erstellen, doch die Verknüpfung von Sprach-, Bild- und Aktionsdaten ist teuer. HiP stellt stattdessen ein anderes, multimodales Rezept dar: ein Trio, das linguistische, physische und umweltbezogene Intelligenz kostengünstig in einen Roboter integriert.
... müssen nicht monolithisch sein
"Basismodelle müssen nicht monolithisch sein", sagt Jim Fan, KI-Forscher bei Nvidia, der nicht an der Studie beteiligt war. "Diese Arbeit zerlegt die komplexe Aufgabe der Planung von verkörperten Agenten in drei konstituierende Modelle: einen sprachlichen Reasoner, ein visuelles Weltmodell und einen Aktionsplaner. Sie macht ein schwieriges Entscheidungsproblem überschaubarer und transparenter."
Das Team glaubt, dass sein System diesen Maschinen helfen könnte, Hausarbeiten zu erledigen, wie zum Beispiel ein Buch wegzulegen oder eine Schüssel in die Spülmaschine zu stellen. Darüber hinaus könnte HiP bei mehrstufigen Konstruktions- und Fertigungsaufgaben helfen, etwa beim Stapeln und Platzieren verschiedener Materialien in einer bestimmten Reihenfolge.
Bewertung von HiP mit drei Manipulationsaufgaben
Das CSAIL-Team testete die Fähigkeiten von HiP bei drei Manipulationsaufgaben und übertraf dabei vergleichbare Systeme. Das System entwickelte intelligente Pläne, die sich an neue Informationen anpassen.
Zunächst verlangten die Forscher, dass er verschiedenfarbige Blöcke aufeinander stapelt und dann andere in der Nähe platziert. Der Haken an der Sache: Einige der richtigen Farben waren nicht vorhanden. Somit musste der Roboter weiße Blöcke in eine Farbschale legen, um sie anzumalen. HiP passte sich diesen Änderungen oft genau an, insbesondere im Vergleich zu modernen Aufgabenplanungssystemen wie Transformer BC und Action Diffuser, indem es seine Pläne anpasste, um jedes Quadrat nach Bedarf zu stapeln und zu platzieren.
Stand: 16.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die WIN-Verlag GmbH & Co. KG, Chiemgaustraße 148, 81549 München einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://kontakt.vogel.de/de/win abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Ein weiterer Test: Anordnen von Objekten wie Süßigkeiten und einem Hammer in einer braunen Schachtel. Dabei blieben andere Gegenstände unbeachtet. Einige der Objekte, die er bewegen musste, waren schmutzig. Daher passte HiP seine Pläne an, um sie in eine Reinigungsbox und dann in den braunen Behälter zu legen. In einer dritten Demonstration war der Bot in der Lage, unnötige Objekte zu ignorieren. Somit konnte er Teilziele in der Küche erfüllen. Dazu gehört zum Beispiel eine Mikrowelle zu öffnen, einen Wasserkocher aus dem Weg zu räumen und ein Licht einzuschalten. Einige der aufgeforderten Tätigkeiten fanden bereits statt. Dort passte sich der Roboter sich an, indem er diese Anweisungen übersprang.
Eine dreistufige Hierarchie
Der dreistufige Planungsprozess von HiP funktioniert als Hierarchie. Dabei lässt sich jede Komponente anhand verschiedener Datensätze trainieren, einschließlich Informationen außerhalb der Robotik. Am unteren Ende der Hierarchie steht ein großes Sprachmodell (LLM). Es beginnt mit der Ideenfindung, indem es alle benötigten symbolischen Informationen erfasst und einen abstrakten Aufgabenplan entwickelt.
Unter Anwendung des gesunden Menschenverstands, den es im Internet findet, zerlegt das Modell sein Ziel in Teilziele. So wird zum Beispiel aus "eine Tasse Tee kochen" "einen Topf mit Wasser füllen", "den Topf zum Kochen bringen" und die anschließenden erforderlichen Aktionen.
"Alles, was wir erreichen wollen, ist, dass die bereits trainierten Modelle erfolgreich miteinander kommunizieren", sagt Anurag Ajay, Doktorand am MIT Department of Electrical Engineering and Computer Science (EECS) und Mitglied des CSAIL. "Anstatt ein einziges Modell für alles zu verwenden, kombinieren wir mehrere Modelle. Diese nutzen verschiedene Modalitäten von Internetdaten. Wenn sie im Tandem zum Einsatz kommen, unterstützen sie die Entscheidungsfindung von Robotern. Diese können potenziell bei Aufgaben in Haushalten, Fabriken und auf Baustellen helfen."
Videomodell generiert Plan für Beobachtungstrajektorie
Diese Modelle brauchen auch eine Art "Augen". So können sie die Umgebung, in der sie arbeiten, verstehen und jedes Teilziel korrekt auszuführen. Das Team nutzte ein großes Videodiffusionsmodell, um die anfängliche Planung des LLM zu ergänzen, das geometrische und physikalische Informationen über die Welt aus Aufnahmen im Internet sammelt. Das Videomodell wiederum generiert einen Plan für die Beobachtungstrajektorie und verfeinert den LLM-Entwurf, um neues physikalisches Wissen einzubeziehen.
Dieser Prozess, der als iterative Verfeinerung bekannt ist, ermöglicht es HiP, über seine Ideen nachzudenken und in jeder Phase Rückmeldungen einzuholen, um einen praktischeren Entwurf zu erstellen. Der Ablauf des Feedbacks ähnelt dem Schreiben eines Artikels, bei dem ein Autor seinen Entwurf an einen Redakteur schickt und der Herausgeber nach Einarbeitung der Überarbeitungen die letzten Änderungen überprüft und den Text fertigstellt.
Einschränkungen bei der multimodalen Arbeit
In diesem Fall steht an der Spitze der Hierarchie ein egozentrisches Handlungsmodell oder eine Abfolge von Bildern aus der ersten Person. Sie leiten aus der Umgebung ab, welche Handlungen auszuführen sind. In dieser Phase wird der Beobachtungsplan aus dem Videomodell auf den für den Roboter sichtbaren Raum abgebildet. Er hilft der Maschine bei der Entscheidung, wie sie die einzelnen Aufgaben im Rahmen des langfristigen Ziels ausführen soll. Wenn ein Roboter HiP verwendet, um Tee zu kochen, bedeutet dies, dass er genau weiß, wo sich die Kanne, die Spüle und andere wichtige visuelle Elemente befinden, und dass er mit der Erfüllung jedes Teilziels beginnt.
Die multimodale Arbeit wird jedoch durch das Fehlen von qualitativ hochwertigen Videofundamentmodellen eingeschränkt. Sobald diese verfügbar sind, könnten sie mit den kleinen HiP-Videomodellen verbunden werden. Somit lässt sich die Vorhersage visueller Sequenzen und die Generierung von Roboteraktionen weiter verbessern. Eine qualitativ hochwertigere Version würde auch den derzeitigen Datenbedarf der Videomodelle verringern.
Abgesehen davon kamen für den Ansatz des CSAIL-Teams insgesamt nur wenige Daten zur Anwendung. Darüber hinaus war HiP kostengünstig zu trainieren. Es demonstrierte das Potenzial der Verwendung leicht verfügbarer Basismodelle zur Erfüllung von Aufgaben mit langem Zeithorizont.
Planung: Roboter sollen reale Aufgaben mit langem Zeithorizont lösen
"Anurag hat gezeigt, wie wir Modelle, die für verschiedene Aufgaben und Datenmodalitäten trainiert wurden, zu Modellen für die Roboterplanung kombinieren können. In Zukunft könnte HiP mit vortrainierten Modellen erweitert werden, die Berührungen und Geräusche verarbeiten können, um bessere Pläne zu erstellen", sagt der Hauptautor Pulkit Agrawal, MIT-Assistenzprofessor für EECS und Direktor des Improbable AI Lab. Die Gruppe erwägt auch die Anwendung von HiP zur Lösung von realen Aufgaben mit langem Zeithorizont in der Robotik.
Ajay und Agrawal sind die Hauptautoren eines Papiers, das die Arbeit beschreibt. Sie werden unterstützt von den MIT-Professoren und CSAIL-Hauptforschern Tommi Jaakkola, Joshua Tenenbaum und Leslie Pack Kaelbling, dem CSAIL-Forschungspartner und MIT-IBM AI Lab-Forschungsleiter Akash Srivastava, den Doktoranden Seungwook Han und Yilun Du '19, dem ehemaligen Postdoc Abhishek Gupta, der jetzt Assistenzprofessor an der University of Washington ist, und dem ehemaligen Doktoranden Shuang Li PhD '23.
Bild: Das am MIT CSAIL entwickelte HiP-Framework entwickelt detaillierte Pläne für Roboter. Es nutzt dazu das Fachwissen dreier verschiedener Basismodelle, um Aufgaben im Haushalt, in Fabriken und auf dem Bau zu erledigen, die mehrere Schritte erfordern. Credits: Alex Shipps/MIT CSAIL