Künstliche Intelligenz Warum ein LLM manchmal die falschen Lektionen lernt

Ein Gastbeitrag von Adam Zewe 5 min Lesedauer

Anbieter zum Thema

Anstatt eine Frage auf der Grundlage von Fachwissen zu beantworten, könnte ein LLM mit Hilfe von grammatikalischen Mustern reagieren, die es während des Trainings gelernt hat. Dies kann dazu führen, dass ein Modell bei der Anwendung auf neue Aufgaben unerwartet versagt.

Ein LLM könnte lernen, dass eine Frage wie „Wo liegt Paris?“(„Where is Paris located?“) wie folgt aufgebaut ist: Adverb/Verb/Eigenname/(Verb). Wenn das Modell eine neue Frage mit derselben grammatikalischen Struktur, aber unsinnigen Wörtern erhält, wie beispielsweise „Schnell sitzen Paris bewölkt?“ (“Quickly sit Paris clouded?”), könnte es mit „Frankreich“ antworten, obwohl diese Antwort keinen Sinn ergibt. (Bild:  MIT News; iStock)
Ein LLM könnte lernen, dass eine Frage wie „Wo liegt Paris?“(„Where is Paris located?“) wie folgt aufgebaut ist: Adverb/Verb/Eigenname/(Verb). Wenn das Modell eine neue Frage mit derselben grammatikalischen Struktur, aber unsinnigen Wörtern erhält, wie beispielsweise „Schnell sitzen Paris bewölkt?“ (“Quickly sit Paris clouded?”), könnte es mit „Frankreich“ antworten, obwohl diese Antwort keinen Sinn ergibt.
(Bild: MIT News; iStock)

Forschende am MIT fanden heraus, dass Modelle bestimmte Satzmuster fälschlicherweise mit bestimmten Themen verknüpfen können. Somit könnte das LLM eine überzeugende Antwort geben, indem es bekannte Formulierungen erkennt, und nicht, indem es die Frage versteht. Ihre Experimente zeigten, dass selbst die leistungsfähigsten LLMs diesen Fehler machen können.

Dieser Mangel könnte die Zuverlässigkeit von LLMs beeinträchtigen, die Aufgaben wie die Bearbeitung von Kundenanfragen, die Zusammenfassung von klinischen Notizen und die Erstellung von Finanzberichten übernehmen.

Dies könnte auch Sicherheitsrisiken mit sich bringen – ein böswilliger Akteur könnte dies ausnutzen, um LLMs dazu zu bringen, schädliche Inhalte zu produzieren, selbst wenn die Modelle über Sicherheitsvorkehrungen verfügen, um solche Antworten zu verhindern.

Wie abhängig ein LLM von falschen Korrelationen ist

Nachdem sie dieses Phänomen identifiziert und seine Auswirkungen untersucht hatten, entwickelten die Forschenden ein Benchmarking-Verfahren, um die Abhängigkeit eines Modells von diesen falschen Korrelationen zu bewerten. Das Verfahren könnte Entwicklern helfen, das Problem vor dem Einsatz von LLMs zu mindern.

„Dies ist ein Nebenprodukt der Art und Weise, wie wir Modelle trainieren. Aber Modelle werden heute in der Praxis in sicherheitskritischen Bereichen eingesetzt, die weit über die Aufgaben hinausgehen, die diese syntaktischen Fehlermodi verursacht haben. Wenn Sie als Endnutzer mit dem Training von Modellen nicht vertraut sind, ist dies wahrscheinlich unerwartet“, sagt Marzyeh Ghassemi, Associate Professor am MIT Department of Electrical Engineering and Computer Science (EECS), Mitglied des Institute of Medical Engineering Sciences und des Laboratory for Information and Decision Systems sowie leitende Autorin der Studie.

Ghassemi wird in der Veröffentlichung von den Co-Autoren Chantal Shaib, Doktorandin an der Northeastern University und Gaststudentin am MIT, und Vinith Suriyakumar, Doktorand am MIT, sowie Levent Sagun, Forschungswissenschaftler bei Meta, und Byron Wallace, Sy and Laurie Sternberg Interdisciplinary Associate Professor und stellvertretender Dekan für Forschung am Khoury College of Computer Sciences der Northeastern University, unterstützt. Die Arbeit wird auf der Konferenz über neuronale Informationsverarbeitungssysteme vorgestellt.

Festgefahren in der Syntax

LLMs werden anhand einer riesigen Menge an Text aus dem Internet trainiert. Dabei lernt das Modell, die Beziehungen zwischen Wörtern und Phrasen zu verstehen – Wissen, das es später bei der Beantwortung von Anfragen nutzt.

In früheren Arbeiten fanden die Forschenden heraus, dass LLMs Muster in den Wortarten erkennen, die in den Trainingsdaten häufig zusammen auftreten. Sie bezeichnen diese Wortartenmuster als „syntaktische Vorlagen”.

LLMs benötigen dieses Verständnis der Syntax zusammen mit semantischem Wissen, um Fragen in einem bestimmten Bereich beantworten zu können.

„Im Nachrichtenbereich gibt es beispielsweise einen bestimmten Schreibstil. Das Modell lernt also nicht nur die Semantik, sondern auch die zugrunde liegende Struktur, wie Sätze zusammengesetzt werden müssen, um einem bestimmten Stil für diesen Bereich zu entsprechen”, erklärt Shaib.

In dieser Studie stellten sie jedoch fest, dass LLMs lernen, diese syntaktischen Vorlagen mit bestimmten Bereichen zu verknüpfen. Das Modell stützt sich bei der Beantwortung von Fragen möglicherweise fälschlicherweise ausschließlich auf diese gelernte Verknüpfung und nicht auf das Verständnis der Anfrage und des Themas.

Beispielsweise könnte ein LLM lernen, dass eine Frage wie „Wo liegt Paris?“ wie folgt aufgebaut ist: Adverb/Verb/Eigenname. Wenn es in den Trainingsdaten des Modells viele Beispiele für diesen Satzbau gibt, könnte das LLM diese syntaktische Vorlage mit Fragen zu Ländern assoziieren.

LLM – mit riesigen Textmengen aus dem Internet trainiert.

Wenn das Modell also eine neue Frage mit derselben grammatikalischen Struktur, aber unsinnigen Wörtern erhält, wie beispielsweise „Schnell sitzen Paris bewölkt?“, könnte es mit „Frankreich“ antworten, obwohl diese Antwort keinen Sinn ergibt.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

„Dies ist eine oft übersehene Art von Assoziation, die das Modell lernt, um Fragen richtig zu beantworten. Wir sollten nicht nur auf die Semantik, sondern auch auf die Syntax der Daten achten, die wir zum Trainieren unserer Modelle verwenden“, sagt Shaib.

Die Bedeutung übersehen

Die Forschenden testeten dieses Phänomen, indem sie synthetische Experimente entwarfen, bei denen nur eine syntaktische Vorlage in den Trainingsdaten des Modells für jeden Bereich vorkam. Sie testeten die Modelle, indem sie Wörter durch Synonyme, Antonyme oder zufällige Wörter ersetzten, aber die zugrunde liegende Syntax beibehielten.

In jedem Fall stellten sie fest, dass LLMs oft immer noch mit der richtigen Antwort reagierten, selbst wenn die Frage völliger Unsinn war. Als sie dieselbe Frage unter Verwendung eines neuen Wortartenmusters umstrukturierten, gaben die LLMs oft keine richtige Antwort, obwohl die zugrunde liegende Bedeutung der Frage dieselbe geblieben war.

Sie verwendeten diesen Ansatz, um vortrainierte LLMs wie GPT-4 und Llama zu testen, und stellten fest, dass dieses erlernte Verhalten ihre Leistung erheblich beeinträchtigte.

Neugierig auf die weiterreichenden Auswirkungen dieser Erkenntnisse untersuchten die Forschenden, ob jemand dieses Phänomen ausnutzen könnte, um schädliche Antworten von einem LLM zu erhalten, das bewusst darauf trainiert wurde, solche Anfragen abzulehnen.

Sie fanden heraus, dass sie das Modell dazu bringen konnten, seine Ablehnungsrichtlinie zu umgehen und schädliche Inhalte zu generieren, indem sie die Frage unter Verwendung einer syntaktischen Vorlage formulierten, die das Modell mit einem „sicheren” Datensatz (einem Datensatz, der keine schädlichen Informationen enthält) assoziiert.

Robustere Abwehrmaßnahmen notwendig

„Aus dieser Arbeit geht für mich klar hervor, dass wir robustere Abwehrmaßnahmen benötigen, um Sicherheitslücken in LLMs zu schließen. In diesem Artikel haben wir eine neue Schwachstelle identifiziert, die aufgrund der Art und Weise entsteht, wie LLMs lernen. Wir müssen also neue Abwehrmaßnahmen entwickeln, die auf der Art und Weise basieren, wie LLMs Sprache lernen, anstatt nur Ad-hoc-Lösungen für verschiedene Schwachstellen zu finden”, sagt Suriyakumar.

Die Forschenden haben in dieser Arbeit zwar keine Strategien zur Risikominderung untersucht, aber sie haben eine automatische Benchmarking-Technik entwickelt, mit der man die Abhängigkeit eines LLM von dieser falschen Korrelation zwischen Syntax und Domäne bewerten kann. Dieser neue Test könnte Entwicklern helfen, diese Schwachstelle in ihren Modellen proaktiv zu beheben, Sicherheitsrisiken zu reduzieren und die Leistung zu verbessern.

Strategien, um Risiken zu mindern

In Zukunft möchten die Forschenden mögliche Strategien zur Risikominderung untersuchen, darunter die Erweiterung der Trainingsdaten, um eine größere Vielfalt an syntaktischen Vorlagen bereitzustellen. Außerdem interessieren sie sich dafür, dieses Phänomen in Schlussfolgerungsmodellen zu untersuchen, speziellen Arten von LLMs, die für mehrstufige Aufgaben entwickelt wurden.

„Ich halte dies für einen wirklich kreativen Ansatz, um Fehlermodi von LLMs zu untersuchen. Diese Arbeit unterstreicht die Bedeutung von Sprachkenntnissen und -analysen in der LLM-Sicherheitsforschung, ein Aspekt, der bisher nicht im Mittelpunkt stand, aber eindeutig im Mittelpunkt stehen sollte“, sagt Jessy Li, Associate Professor an der University of Texas in Austin, die nicht an dieser Arbeit beteiligt war.

Diese Arbeit wird teilweise durch ein Bridgewater AIA Labs Fellowship, die National Science Foundation, die Gordon and Betty Moore Foundation, einen Google Research Award und Schmidt Sciences finanziert.

Weitere Informationen: https://www.mit.edu/

Artikel: „Learning the Wrong Lessons: Syntactic-Domain Spurious Correlations in Language Models” (Falsche Lehren ziehen: Syntaktisch-domänenbezogene Scheinkorrelationen in Sprachmodellen)

https://arxiv.org/pdf/2509.21155