KI-gesteuertes Montagesystem Roboter, bau mir einen Stuhl!

Ein Gastbeitrag von Adam Zewe 5 min Lesedauer

Anbieter zum Thema

Ein KI-gesteuertes Montagesystem ermöglicht es Benutzern, einfache Objekte aus mehreren Komponenten zu entwerfen und zu bauen, indem sie diese mit Worten beschreiben.

Auf die Eingabe „Bau mir einen Stuhl“ und die Rückmeldung „Ich möchte Verkleidungen am Sitz“ hin baut der Roboter einen Stuhl zusammen und platziert die Verkleidungskomponenten gemäß der Eingabe des Benutzers.(Bild:  Mit freundlicher Genehmigung der Forschenden)
Auf die Eingabe „Bau mir einen Stuhl“ und die Rückmeldung „Ich möchte Verkleidungen am Sitz“ hin baut der Roboter einen Stuhl zusammen und platziert die Verkleidungskomponenten gemäß der Eingabe des Benutzers.
(Bild: Mit freundlicher Genehmigung der Forschenden)

Computergestützte Konstruktionssysteme (CAD) sind Werkzeuge, mit denen viele der physischen Objekte entworfen werden, die wir täglich verwenden. Die Beherrschung von CAD-Software erfordert jedoch umfangreiches Fachwissen, und viele Tools sind so detailreich, dass sie sich nicht für Brainstorming oder Rapid Prototyping eignen. Um das Design für Nicht-Experten schneller und zugänglicher zu machen, haben Forschende des MIT und anderer Einrichtungen ein KI-gesteuertes Montagesystem entwickelt, mit dem Menschen physische Objekte bauen können, indem sie diese einfach mit Worten beschreiben.

Ihr System verwendet ein generatives KI-Modell, um auf Grundlage der Eingabe des Benutzers eine 3D-Darstellung der Geometrie eines Objekts zu erstellen. Anschließend analysiert ein zweites generatives KI-Modell das gewünschte Objekt und ermittelt anhand der Funktion und Geometrie des Objekts, wo die verschiedenen Komponenten platziert werden sollten.

KI-gesteuertes Montagesystem

Das System kann das Objekt automatisch aus einer Reihe vorgefertigter Teile mithilfe einer Roboter-Montage zusammenbauen. Es kann das Design auch auf Grundlage des Feedbacks der Nutzer iterieren. Die Forscher nutzten dieses End-to-End-System, um Möbel, darunter Stühle und Regale, aus zwei Arten vorgefertigter Komponenten herzustellen. Die Komponenten können nach Belieben zerlegt und wieder zusammengesetzt werden, wodurch die Menge an Abfall, die beim Herstellungsprozess anfällt, reduziert wird.

Sie bewerteten diese Entwürfe im Rahmen einer Anwenderstudie und stellten fest, dass mehr als 90 Prozent der Teilnehmer die von ihrem KI-gesteuerten System hergestellten Objekte gegenüber anderen Ansätzen bevorzugten.

Prototypen schneller herstellen

Obwohl es sich hierbei um eine erste Demonstration handelt, könnte das Framework besonders nützlich für die schnelle Prototypenerstellung komplexer Objekte wie Luft- und Raumfahrtkomponenten und architektonischer Objekte sein. Langfristig könnte es in Haushalten eingesetzt werden, um Möbel oder andere Objekte vor Ort herzustellen, ohne dass sperrige Produkte von einer zentralen Einrichtung geliefert werden müssen.

„Früher oder später wollen wir in der Lage sein, mit einem Roboter und einem KI-System auf die gleiche Weise zu kommunizieren und zu sprechen, wie wir miteinander sprechen, um gemeinsam Dinge zu erschaffen. Unser System ist ein erster Schritt, um diese Zukunft zu ermöglichen“, sagt der Hauptautor Alex Kyaw, Doktorand an den MIT-Fachbereichen Elektrotechnik und Informatik (EECS) sowie Architektur.

Kyaw wird in der Veröffentlichung von Richa Gupta, einer Architekturstudentin am MIT, Faez Ahmed, außerordentlicher Professor für Maschinenbau, Lawrence Sass, Professor und Vorsitzender der Computation Group im Fachbereich Architektur, dem leitenden Autor Randall Davis, Professor für Elektrotechnik und Informatik und Mitglied des Computer Science and Artificial Intelligence Laboratory (CSAIL), sowie weiteren Mitarbeitern von Google Deepmind und Autodesk Research unterstützt. Die Arbeit wurde kürzlich auf der Konferenz für neuronale Informationsverarbeitungssysteme vorgestellt.

Erstellen eines Mehrkomponenten-Designs

Generative KI-Modelle sind zwar gut darin, aus Textvorgaben 3D-Darstellungen, sogenannte Meshes, zu generieren, aber die meisten produzieren keine einheitlichen Darstellungen der Geometrie eines Objekts, die die für die robotergestützte Montage erforderlichen Details auf Komponentenebene enthalten.

Die Aufteilung dieser Meshes in Komponenten ist für ein Modell eine Herausforderung, da die Zuordnung der Komponenten von der Geometrie und Funktionalität des Objekts und seiner Teile abhängt.

Die Forscher gingen diese Herausforderungen mit einem Vision-Language-Modell (VLM) an, einem leistungsstarken generativen KI-Modell, das vorab trainiert wurde, um Bilder und Text zu verstehen. Sie beauftragen das VLM damit, herauszufinden, wie zwei Arten von vorgefertigten Teilen, nämlich Strukturkomponenten und Plattenkomponenten, zusammenpassen müssen, um ein Objekt zu bilden.

Roboter muss die Geometrie sehen

„Es gibt viele Möglichkeiten, wie wir Platten auf ein physisches Objekt setzen können, aber der Roboter muss die Geometrie sehen und über diese Geometrie nachdenken, um eine Entscheidung darüber zu treffen. Indem es sowohl als Augen als auch als Gehirn des Roboters fungiert, ermöglicht das VLM dem Roboter, dies zu tun“, sagt Kyaw.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Ein Benutzer gibt einen Text in das System ein, beispielsweise „Mach mir einen Stuhl“, und liefert ihm ein KI-generiertes Bild eines Stuhls als Ausgangspunkt.

Anschließend analysiert das VLM den Stuhl und bestimmt anhand der Funktionalität vieler zuvor gesehener Beispielobjekte, wo die Verkleidungskomponenten auf den Strukturkomponenten angebracht werden sollen. Das Modell kann beispielsweise feststellen, dass der Sitz und die Rückenlehne mit Verkleidungen versehen werden sollten, damit jemand auf dem Stuhl sitzen und sich daran anlehnen kann.

Es gibt diese Informationen als Text aus, zum Beispiel „Sitzfläche“ oder „Rückenlehne“. Jede Oberfläche des Stuhls wird dann mit Zahlen gekennzeichnet, und die Informationen werden an das VLM zurückgemeldet.

Anschließend wählt das VLM die Kennzeichnungen aus, die den geometrischen Teilen des Stuhls entsprechen, die Platten auf dem 3D-Netz erhalten sollen, um das Design zu vervollständigen.

Co-Design von Mensch und KI

Der Benutzer bleibt während des gesamten Prozesses eingebunden und kann das Design verfeinern, indem er dem Modell eine neue Vorgabe gibt, zum Beispiel „nur Paneele für die Rückenlehne verwenden, nicht für den Sitz“.

„Der Gestaltungsraum ist sehr groß, daher grenzen wir ihn anhand des Feedbacks der Benutzer ein. Wir glauben, dass dies der beste Weg ist, da Menschen unterschiedliche Vorlieben haben und es unmöglich wäre, ein für alle ideales Modell zu entwickeln“, sagt Kyaw.

„Der Human-in-the-Loop-Prozess ermöglicht es den Benutzern, die von der KI generierten Designs zu steuern und ein Gefühl der Eigenverantwortung für das Endergebnis zu entwickeln“, fügt Gupta hinzu.

Objekt aus vorgefertigten Teilen

Sobald das 3D-Netz fertiggestellt ist, baut ein robotergesteuertes Montagesystem das Objekt aus vorgefertigten Teilen zusammen. Diese wiederverwendbaren Teile können zerlegt und in verschiedenen Konfigurationen wieder zusammengesetzt werden.

Die Forscher verglichen die Ergebnisse ihrer Methode mit einem Algorithmus, der Platten auf allen nach oben gerichteten horizontalen Flächen platziert, und einem Algorithmus, der Platten zufällig platziert. In einer Anwenderstudie bevorzugten mehr als 90 Prozent der Personen die von ihrem System erstellten Entwürfe. Sie baten das VLM auch, zu erklären, warum es sich dafür entschieden hatte, Platten in diesen Bereichen zu platzieren.

„Wir haben gelernt, dass das visuelle Sprachmodell in der Lage ist, bestimmte funktionale Aspekte eines Stuhls wie Lehnen und Sitzen zu verstehen, um zu begreifen, warum es Platten auf die Sitzfläche und Rückenlehne setzt. Es spuckt diese Zuweisungen nicht einfach zufällig aus“, sagt Kyaw.

Die Zukunft: Komplexere Anweisungen und mehr Funktionalität

In Zukunft möchten die Forscher ihr System verbessern, damit es komplexere und nuanciertere Benutzeranweisungen verarbeiten kann, beispielsweise einen Tisch aus Glas und Metall. Darüber hinaus möchten sie zusätzliche vorgefertigte Komponenten wie Zahnräder, Scharniere oder andere bewegliche Teile integrieren, damit Objekte mehr Funktionalität erhalten.

„Wir hoffen, die Zugangsbarriere zu Designtools drastisch zu senken. Wir haben gezeigt, dass wir mit generativer KI und Robotik Ideen schnell, zugänglich und nachhaltig in physische Objekte umsetzen können“, sagt Davis.

Paper: “Text to Robotic Assembly of Multi Component Objects using 3D Generative AI and Vision Language Models”, https://arxiv.org/pdf/2511.02162

Weitere Informationen: https://www.mit.edu/