Anstatt eine Frage auf der Grundlage von Fachwissen zu beantworten, könnte ein LLM mit Hilfe von grammatikalischen Mustern reagieren, die es während des Trainings gelernt hat. Dies kann dazu führen, dass ein Modell bei der Anwendung auf neue Aufgaben unerwartet versagt.
Ein LLM könnte lernen, dass eine Frage wie „Wo liegt Paris?“(„Where is Paris located?“) wie folgt aufgebaut ist: Adverb/Verb/Eigenname/(Verb). Wenn das Modell eine neue Frage mit derselben grammatikalischen Struktur, aber unsinnigen Wörtern erhält, wie beispielsweise „Schnell sitzen Paris bewölkt?“ (“Quickly sit Paris clouded?”), könnte es mit „Frankreich“ antworten, obwohl diese Antwort keinen Sinn ergibt.
(Bild: MIT News; iStock)
Forschende am MIT fanden heraus, dass Modelle bestimmte Satzmuster fälschlicherweise mit bestimmten Themen verknüpfen können. Somit könnte das LLM eine überzeugende Antwort geben, indem es bekannte Formulierungen erkennt, und nicht, indem es die Frage versteht. Ihre Experimente zeigten, dass selbst die leistungsfähigsten LLMs diesen Fehler machen können.
Dieser Mangel könnte die Zuverlässigkeit von LLMs beeinträchtigen, die Aufgaben wie die Bearbeitung von Kundenanfragen, die Zusammenfassung von klinischen Notizen und die Erstellung von Finanzberichten übernehmen.
Dies könnte auch Sicherheitsrisiken mit sich bringen – ein böswilliger Akteur könnte dies ausnutzen, um LLMs dazu zu bringen, schädliche Inhalte zu produzieren, selbst wenn die Modelle über Sicherheitsvorkehrungen verfügen, um solche Antworten zu verhindern.
Wie abhängig ein LLM von falschen Korrelationen ist
Nachdem sie dieses Phänomen identifiziert und seine Auswirkungen untersucht hatten, entwickelten die Forschenden ein Benchmarking-Verfahren, um die Abhängigkeit eines Modells von diesen falschen Korrelationen zu bewerten. Das Verfahren könnte Entwicklern helfen, das Problem vor dem Einsatz von LLMs zu mindern.
„Dies ist ein Nebenprodukt der Art und Weise, wie wir Modelle trainieren. Aber Modelle werden heute in der Praxis in sicherheitskritischen Bereichen eingesetzt, die weit über die Aufgaben hinausgehen, die diese syntaktischen Fehlermodi verursacht haben. Wenn Sie als Endnutzer mit dem Training von Modellen nicht vertraut sind, ist dies wahrscheinlich unerwartet“, sagt Marzyeh Ghassemi, Associate Professor am MIT Department ofElectrical Engineering and Computer Science (EECS), Mitglied des Institute of Medical Engineering Sciences und des Laboratory for Information and Decision Systems sowie leitende Autorin der Studie.
Ghassemi wird in der Veröffentlichung von den Co-Autoren Chantal Shaib, Doktorandin an der Northeastern University und Gaststudentin am MIT, und VinithSuriyakumar, Doktorand am MIT, sowie Levent Sagun, Forschungswissenschaftler bei Meta, und Byron Wallace, Sy and Laurie Sternberg Interdisciplinary Associate Professor und stellvertretender Dekan für Forschung am Khoury College of Computer Sciences der Northeastern University, unterstützt. Die Arbeit wird auf der Konferenz über neuronale Informationsverarbeitungssysteme vorgestellt.
Festgefahren in der Syntax
LLMs werden anhand einer riesigen Menge an Text aus dem Internet trainiert. Dabei lernt das Modell, die Beziehungen zwischen Wörtern und Phrasen zu verstehen – Wissen, das es später bei der Beantwortung von Anfragen nutzt.
In früheren Arbeiten fanden die Forschenden heraus, dass LLMs Muster in den Wortarten erkennen, die in den Trainingsdaten häufig zusammen auftreten. Sie bezeichnen diese Wortartenmuster als „syntaktische Vorlagen”.
LLMs benötigen dieses Verständnis der Syntax zusammen mit semantischem Wissen, um Fragen in einem bestimmten Bereich beantworten zu können.
„Im Nachrichtenbereich gibt es beispielsweise einen bestimmten Schreibstil. Das Modell lernt also nicht nur die Semantik, sondern auch die zugrunde liegende Struktur, wie Sätze zusammengesetzt werden müssen, um einem bestimmten Stil für diesen Bereich zu entsprechen”, erklärt Shaib.
In dieser Studie stellten sie jedoch fest, dass LLMs lernen, diese syntaktischen Vorlagen mit bestimmten Bereichen zu verknüpfen. Das Modell stützt sich bei der Beantwortung von Fragen möglicherweise fälschlicherweise ausschließlich auf diese gelernte Verknüpfung und nicht auf das Verständnis der Anfrage und des Themas.
Beispielsweise könnte ein LLM lernen, dass eine Frage wie „Wo liegt Paris?“ wie folgt aufgebaut ist: Adverb/Verb/Eigenname. Wenn es in den Trainingsdaten des Modells viele Beispiele für diesen Satzbau gibt, könnte das LLM diese syntaktische Vorlage mit Fragen zu Ländern assoziieren.
LLM – mit riesigen Textmengen aus dem Internet trainiert.
Wenn das Modell also eine neue Frage mit derselben grammatikalischen Struktur, aber unsinnigen Wörtern erhält, wie beispielsweise „Schnell sitzen Paris bewölkt?“, könnte es mit „Frankreich“ antworten, obwohl diese Antwort keinen Sinn ergibt.
Stand: 16.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die WIN-Verlag GmbH & Co. KG, Chiemgaustraße 148, 81549 München einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://kontakt.vogel.de/de/win abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
„Dies ist eine oft übersehene Art von Assoziation, die das Modell lernt, um Fragen richtig zu beantworten. Wir sollten nicht nur auf die Semantik, sondern auch auf die Syntax der Daten achten, die wir zum Trainieren unserer Modelle verwenden“, sagt Shaib.
Die Bedeutung übersehen
Die Forschenden testeten dieses Phänomen, indem sie synthetische Experimente entwarfen, bei denen nur eine syntaktische Vorlage in den Trainingsdaten des Modells für jeden Bereich vorkam. Sie testeten die Modelle, indem sie Wörter durch Synonyme, Antonyme oder zufällige Wörter ersetzten, aber die zugrunde liegende Syntax beibehielten.
In jedem Fall stellten sie fest, dass LLMs oft immer noch mit der richtigen Antwort reagierten, selbst wenn die Frage völliger Unsinn war. Als sie dieselbe Frage unter Verwendung eines neuen Wortartenmusters umstrukturierten, gaben die LLMs oft keine richtige Antwort, obwohl die zugrunde liegende Bedeutung der Frage dieselbe geblieben war.
Sie verwendeten diesen Ansatz, um vortrainierte LLMs wie GPT-4 und Llama zu testen, und stellten fest, dass dieses erlernte Verhalten ihre Leistung erheblich beeinträchtigte.
Neugierig auf die weiterreichenden Auswirkungen dieser Erkenntnisse untersuchten die Forschenden, ob jemand dieses Phänomen ausnutzen könnte, um schädliche Antworten von einem LLM zu erhalten, das bewusst darauf trainiert wurde, solche Anfragen abzulehnen.
Sie fanden heraus, dass sie das Modell dazu bringen konnten, seine Ablehnungsrichtlinie zu umgehen und schädliche Inhalte zu generieren, indem sie die Frage unter Verwendung einer syntaktischen Vorlage formulierten, die das Modell mit einem „sicheren” Datensatz (einem Datensatz, der keine schädlichen Informationen enthält) assoziiert.
Robustere Abwehrmaßnahmen notwendig
„Aus dieser Arbeit geht für mich klar hervor, dass wir robustere Abwehrmaßnahmen benötigen, um Sicherheitslücken in LLMs zu schließen. In diesem Artikel haben wir eine neue Schwachstelle identifiziert, die aufgrund der Art und Weise entsteht, wie LLMs lernen. Wir müssen also neue Abwehrmaßnahmen entwickeln, die auf der Art und Weise basieren, wie LLMs Sprache lernen, anstatt nur Ad-hoc-Lösungen für verschiedene Schwachstellen zu finden”, sagt Suriyakumar.
Die Forschenden haben in dieser Arbeit zwar keine Strategien zur Risikominderung untersucht, aber sie haben eine automatische Benchmarking-Technik entwickelt, mit der man die Abhängigkeit eines LLM von dieser falschen Korrelation zwischen Syntax und Domäne bewerten kann. Dieser neue Test könnte Entwicklern helfen, diese Schwachstelle in ihren Modellen proaktiv zu beheben, Sicherheitsrisiken zu reduzieren und die Leistung zu verbessern.
Strategien, um Risiken zu mindern
In Zukunft möchten die Forschenden mögliche Strategien zur Risikominderung untersuchen, darunter die Erweiterung der Trainingsdaten, um eine größere Vielfalt an syntaktischen Vorlagen bereitzustellen. Außerdem interessieren sie sich dafür, dieses Phänomen in Schlussfolgerungsmodellen zu untersuchen, speziellen Arten von LLMs, die für mehrstufige Aufgaben entwickelt wurden.
„Ich halte dies für einen wirklich kreativen Ansatz, um Fehlermodi von LLMs zu untersuchen. Diese Arbeit unterstreicht die Bedeutung von Sprachkenntnissen und -analysen in der LLM-Sicherheitsforschung, ein Aspekt, der bisher nicht im Mittelpunkt stand, aber eindeutig im Mittelpunkt stehen sollte“, sagt Jessy Li, Associate Professor an der University of Texas in Austin, die nicht an dieser Arbeit beteiligt war.
Diese Arbeit wird teilweise durch ein Bridgewater AIA Labs Fellowship, die National Science Foundation, die Gordon and Betty Moore Foundation, einen Google Research Award und Schmidt Sciences finanziert.
Artikel: „Learning the Wrong Lessons: Syntactic-Domain Spurious Correlations in Language Models” (Falsche Lehren ziehen: Syntaktisch-domänenbezogene Scheinkorrelationen in Sprachmodellen)