16.01.2024 – Kategorie: Automatisierung & Robotik

Multiple KI-Modelle: So können Roboter komplexe Pläne situationsgerecht ausführen

Multiple KI-Modelle für RoboterQuelle: Credits:Bild: Alex Shipps/MIT CSAIL

Während wir jeden einzelnen Schritt einer Routineaufgabe ohne viel Nachdenken ausführen können, benötigt ein Roboter einen detaillierten Plan. Multiple KI-Modelle können Roboter dabei unterstützen, derartige Pläne transparent und situationsgerecht auszuführen.

  • Multiple KI-Modelle helfen Robotern, komplexe Pläne transparenter auszuführen
  • Ein multimodales System nutzt Modelle, die auf Sprach-, Seh- und Handlungsdaten trainiert wurden.
  • Somit können sie Roboter bei der Entwicklung und Ausführung von Plänen für Haushalts-, Bau- und Fertigungsaufgaben unterstützen.

Eine tägliche Aufgabenliste könnte so aussehen: Geschirr spülen, Lebensmittel einkaufen und andere Kleinigkeiten. Es ist unwahrscheinlich, dass man „das erste schmutzige Geschirr aufnehmen“ oder „den Teller mit einem Schwamm abwaschen“ aufgeschrieben hat. Denn jeder dieser Miniaturschritte innerhalb der Aufgabe fühlt sich intuitiv an. Wir können jeden einzelnen Schritt routinemäßig und ohne viel Nachdenken ausführe. Ein Roboter hingegen benötigt einen komplexen Plan, der viele Details umschreibt.

Das Improbable AI Lab des MIT, eine Gruppe innerhalb des Computer Science and Artificial Intelligence Laboratory (CSAIL), hat diesen Maschinen mit einem neuen multimodalen Framework unter die Arme gegriffen. Denn die Lösung namens Compositional Foundation Models for Hierarchical Planning (HiP) entwickelt detaillierte, realisierbare Pläne mit dem Fachwissen von drei verschiedenen Grundmodellen. Wie OpenAIs GPT-4, das Grundmodell, auf dem ChatGPT und Bing Chat aufgebaut sind, werden diese Grundmodelle auf riesigen Datenmengen für Anwendungen wie Bilderzeugung, Textübersetzung und Robotik trainiert.

Basismodelle für Roboter …

Im Gegensatz zu RT2 und anderen multimodalen Modellen, die auf gepaarten Seh-, Sprach- und Handlungsdaten trainiert werden, verwendet HiP drei verschiedene Basismodelle. Diese werden jeweils auf verschiedenen Datenmodalitäten trainiert. Jedes Grundmodell erfasst einen anderen Teil des Entscheidungsprozesses. Es arbeitet dann mit anderen zusammen, wenn es Zeit ist, Entscheidungen zu treffen. HiP macht den Zugang zu gepaarten Seh-, Sprach- und Handlungsdaten überflüssig, die schwer zu beschaffen sind. Das Konzept macht zudem auch den Denkprozess transparenter.

Was für einen Menschen eine alltägliche Aufgabe ist, kann für einen Roboter ein „langfristiges Ziel“ sein. Bei einem solchen übergreifendes Ziel gilt es zuerst, viele kleinere Schritte zu erledigen. Zwar haben Computer-Vision-Forscher versucht, monolithische Basismodelle für dieses Problem zu erstellen, doch die Verknüpfung von Sprach-, Bild- und Aktionsdaten ist teuer. HiP stellt stattdessen ein anderes, multimodales Rezept dar: ein Trio, das linguistische, physische und umweltbezogene Intelligenz kostengünstig in einen Roboter integriert.

… müssen nicht monolithisch sein

„Basismodelle müssen nicht monolithisch sein“, sagt Jim Fan, KI-Forscher bei Nvidia, der nicht an der Studie beteiligt war. „Diese Arbeit zerlegt die komplexe Aufgabe der Planung von verkörperten Agenten in drei konstituierende Modelle: einen sprachlichen Reasoner, ein visuelles Weltmodell und einen Aktionsplaner. Sie macht ein schwieriges Entscheidungsproblem überschaubarer und transparenter.“

Das Team glaubt, dass sein System diesen Maschinen helfen könnte, Hausarbeiten zu erledigen, wie zum Beispiel ein Buch wegzulegen oder eine Schüssel in die Spülmaschine zu stellen. Darüber hinaus könnte HiP bei mehrstufigen Konstruktions- und Fertigungsaufgaben helfen, etwa beim Stapeln und Platzieren verschiedener Materialien in einer bestimmten Reihenfolge.

Bewertung von HiP mit drei Manipulationsaufgaben

Das CSAIL-Team testete die Fähigkeiten von HiP bei drei Manipulationsaufgaben und übertraf dabei vergleichbare Systeme. Das System entwickelte intelligente Pläne, die sich an neue Informationen anpassen.

Zunächst verlangten die Forscher, dass er verschiedenfarbige Blöcke aufeinander stapelt und dann andere in der Nähe platziert. Der Haken an der Sache: Einige der richtigen Farben waren nicht vorhanden. Somit musste der Roboter weiße Blöcke in eine Farbschale legen, um sie anzumalen. HiP passte sich diesen Änderungen oft genau an, insbesondere im Vergleich zu modernen Aufgabenplanungssystemen wie Transformer BC und Action Diffuser, indem es seine Pläne anpasste, um jedes Quadrat nach Bedarf zu stapeln und zu platzieren.

Ein weiterer Test: Anordnen von Objekten wie Süßigkeiten und einem Hammer in einer braunen Schachtel. Dabei blieben andere Gegenstände unbeachtet. Einige der Objekte, die er bewegen musste, waren schmutzig. Daher passte HiP seine Pläne an, um sie in eine Reinigungsbox und dann in den braunen Behälter zu legen. In einer dritten Demonstration war der Bot in der Lage, unnötige Objekte zu ignorieren. Somit konnte er Teilziele in der Küche erfüllen. Dazu gehört zum Beispiel eine Mikrowelle zu öffnen, einen Wasserkocher aus dem Weg zu räumen und ein Licht einzuschalten. Einige der aufgeforderten Tätigkeiten fanden bereits statt. Dort passte sich der Roboter sich an, indem er diese Anweisungen übersprang.

Eine dreistufige Hierarchie

Der dreistufige Planungsprozess von HiP funktioniert als Hierarchie. Dabei lässt sich jede Komponente anhand verschiedener Datensätze trainieren, einschließlich Informationen außerhalb der Robotik. Am unteren Ende der Hierarchie steht ein großes Sprachmodell (LLM). Es beginnt mit der Ideenfindung, indem es alle benötigten symbolischen Informationen erfasst und einen abstrakten Aufgabenplan entwickelt.

Unter Anwendung des gesunden Menschenverstands, den es im Internet findet, zerlegt das Modell sein Ziel in Teilziele. So wird zum Beispiel aus „eine Tasse Tee kochen“ „einen Topf mit Wasser füllen“, „den Topf zum Kochen bringen“ und die anschließenden erforderlichen Aktionen.

„Alles, was wir erreichen wollen, ist, dass die bereits trainierten Modelle erfolgreich miteinander kommunizieren“, sagt Anurag Ajay, Doktorand am MIT Department of Electrical Engineering and Computer Science (EECS) und Mitglied des CSAIL. „Anstatt ein einziges Modell für alles zu verwenden, kombinieren wir mehrere Modelle. Diese nutzen verschiedene Modalitäten von Internetdaten. Wenn sie im Tandem zum Einsatz kommen, unterstützen sie die Entscheidungsfindung von Robotern. Diese können potenziell bei Aufgaben in Haushalten, Fabriken und auf Baustellen helfen.“

Videomodell generiert Plan für Beobachtungstrajektorie

Diese Modelle brauchen auch eine Art „Augen“. So können sie die Umgebung, in der sie arbeiten, verstehen und jedes Teilziel korrekt auszuführen. Das Team nutzte ein großes Videodiffusionsmodell, um die anfängliche Planung des LLM zu ergänzen, das geometrische und physikalische Informationen über die Welt aus Aufnahmen im Internet sammelt. Das Videomodell wiederum generiert einen Plan für die Beobachtungstrajektorie und verfeinert den LLM-Entwurf, um neues physikalisches Wissen einzubeziehen.

Dieser Prozess, der als iterative Verfeinerung bekannt ist, ermöglicht es HiP, über seine Ideen nachzudenken und in jeder Phase Rückmeldungen einzuholen, um einen praktischeren Entwurf zu erstellen. Der Ablauf des Feedbacks ähnelt dem Schreiben eines Artikels, bei dem ein Autor seinen Entwurf an einen Redakteur schickt und der Herausgeber nach Einarbeitung der Überarbeitungen die letzten Änderungen überprüft und den Text fertigstellt.

Einschränkungen bei der multimodalen Arbeit

In diesem Fall steht an der Spitze der Hierarchie ein egozentrisches Handlungsmodell oder eine Abfolge von Bildern aus der ersten Person. Sie leiten aus der Umgebung ab, welche Handlungen auszuführen sind. In dieser Phase wird der Beobachtungsplan aus dem Videomodell auf den für den Roboter sichtbaren Raum abgebildet. Er hilft der Maschine bei der Entscheidung, wie sie die einzelnen Aufgaben im Rahmen des langfristigen Ziels ausführen soll. Wenn ein Roboter HiP verwendet, um Tee zu kochen, bedeutet dies, dass er genau weiß, wo sich die Kanne, die Spüle und andere wichtige visuelle Elemente befinden, und dass er mit der Erfüllung jedes Teilziels beginnt.

Die multimodale Arbeit wird jedoch durch das Fehlen von qualitativ hochwertigen Videofundamentmodellen eingeschränkt. Sobald diese verfügbar sind, könnten sie mit den kleinen HiP-Videomodellen verbunden werden. Somit lässt sich die Vorhersage visueller Sequenzen und die Generierung von Roboteraktionen weiter verbessern. Eine qualitativ hochwertigere Version würde auch den derzeitigen Datenbedarf der Videomodelle verringern.

Abgesehen davon kamen für den Ansatz des CSAIL-Teams insgesamt nur wenige Daten zur Anwendung. Darüber hinaus war HiP kostengünstig zu trainieren. Es demonstrierte das Potenzial der Verwendung leicht verfügbarer Basismodelle zur Erfüllung von Aufgaben mit langem Zeithorizont.

Planung: Roboter sollen reale Aufgaben mit langem Zeithorizont lösen

„Anurag hat gezeigt, wie wir Modelle, die für verschiedene Aufgaben und Datenmodalitäten trainiert wurden, zu Modellen für die Roboterplanung kombinieren können. In Zukunft könnte HiP mit vortrainierten Modellen erweitert werden, die Berührungen und Geräusche verarbeiten können, um bessere Pläne zu erstellen“, sagt der Hauptautor Pulkit Agrawal, MIT-Assistenzprofessor für EECS und Direktor des Improbable AI Lab. Die Gruppe erwägt auch die Anwendung von HiP zur Lösung von realen Aufgaben mit langem Zeithorizont in der Robotik.

Ajay und Agrawal sind die Hauptautoren eines Papiers, das die Arbeit beschreibt. Sie werden unterstützt von den MIT-Professoren und CSAIL-Hauptforschern Tommi Jaakkola, Joshua Tenenbaum und Leslie Pack Kaelbling, dem CSAIL-Forschungspartner und MIT-IBM AI Lab-Forschungsleiter Akash Srivastava, den Doktoranden Seungwook Han und Yilun Du ’19, dem ehemaligen Postdoc Abhishek Gupta, der jetzt Assistenzprofessor an der University of Washington ist, und dem ehemaligen Doktoranden Shuang Li PhD ’23.

Bild: Das am MIT CSAIL entwickelte HiP-Framework entwickelt detaillierte Pläne für Roboter. Es nutzt dazu das Fachwissen dreier verschiedener Basismodelle, um Aufgaben im Haushalt, in Fabriken und auf dem Bau zu erledigen, die mehrere Schritte erfordern. Credits: Alex Shipps/MIT CSAIL

Weitere Informationen: https://www.mit.edu/

Erfahren Sie hier mehr über künstliche Intelligenz für Design und Fertigung.

Lesen Sie auch: „Low-Cost-Automation: Welche Projekte versprechen den schnellsten Return on Invest?“


Teilen Sie die Meldung „Multiple KI-Modelle: So können Roboter komplexe Pläne situationsgerecht ausführen“ mit Ihren Kontakten:


Scroll to Top