AI lernt heimlich zu schaden? Anthropic enthüllt erstmals die Risiken des subliminalen Feintunings – Langsame Einführung in AI161
Empfehlung des Übersetzers
- Das „Distillieren“ von Modellen ist nicht absolut sicher: Scheinbar harmlose Trainingsdaten können heimlich die versteckten Vorurteile oder sogar bösen Absichten des „Lehrermodells“ übertragen.
- Um der „subliminalen“ Verunreinigung von AI vorzubeugen, ist die einfachste Strategie die „heterogene Lehre“: Sicherstellen, dass das für das Feintuning verwendete „Schülermodell“ und das generierende „Lehrermodell“ aus verschiedenen Architekturen stammen.
- AI-Sicherheit sollte nicht nur auf oberflächlichen Verhaltensweisen basieren, sondern auch die „Herkunft“ tiefgreifend untersuchen. Die Ähnlichkeit der Modellparameter ist die Wurzel der versteckten Risikoübertragung.
- Die weit verbreitete Verwendung der Trainingsmethode „synthetische Daten“ in Unternehmen birgt Risiken: Sie könnte versehentlich Fehler eines Modells an ein anderes „vererben“ und somit unbeabsichtigte „Datenvergiftungen“ verursachen.
Eine neue Studie von Anthropic zeigt, dass Sprachmodelle während des „Distillierens“ (einer häufig verwendeten Methode zur Feinabstimmung von Modellen für spezifische Aufgaben) möglicherweise heimliche Eigenschaften erlernen. Obwohl diese als „subliminales Lernen“ bezeichneten Eigenschaften von den Forschern als gutartig angesehen werden, zeigt die Studie, dass sie auch unerwünschte Ergebnisse wie eine „Fehlanpassung“ (misalignment) oder schädliches Verhalten verursachen können.
Was ist „subliminales Lernen“?
Distillieren ist eine gängige Technik in der Entwicklung von AI-Anwendungen. Dabei wird ein kleineres „Schülermodell“ trainiert, um die Ausgaben eines größeren und leistungsfähigeren „Lehrermodells“ zu imitieren. Dieser Prozess wird oft genutzt, um kleinere, kostengünstigere und schnellere spezialisierte Modelle zu erstellen, die den Anforderungen bestimmter Anwendungen gerecht werden. Doch die Forschung von Anthropic enthüllt eine unerwartete Eigenschaft dieses Prozesses.
Die Forscher fanden heraus, dass das Lehrermodell seine Verhaltensmerkmale an das Schülermodell überträgt, selbst wenn die für das Training verwendeten generierten Daten keinerlei Zusammenhang mit diesen Merkmalen aufweisen.
Um dieses Phänomen, das sie „subliminales Lernen“ nennen, zu überprüfen, folgten die Forscher einem strengen Verfahren. Zunächst verwendeten sie ein anfängliches Referenzmodell, um ein „Lehrermodell“ mit spezifischen Vorlieben (wie der Vorliebe für eine bestimmte Tierart oder Baumart) durch Anreize oder Feintuning zu schaffen. Anschließend generierte dieses Lehrermodell in einem engen und irrelevanten Bereich Daten, beispielsweise digitale Sequenzen, Codefragmente oder Denklätzel (CoT) zur Lösung mathematischer Probleme. Diese generierten Daten wurden dann sorgfältig gefiltert, um sicherzustellen, dass alle spezifischen Vorlieben entfernt wurden. Schließlich wurde ein „Schülermodell“, das mit dem anfänglichen Referenzmodell identisch war, auf der Grundlage dieser gefilterten Daten feingetunt und evaluiert.
Bildquelle: Anthropic
„Subliminales Lernen“ tritt auf, wenn das Schülermodell Eigenschaften des Lehrermodells erlernt, während die Trainingsdaten semantisch völlig unabhängig von diesen Eigenschaften sind.
Dieser Effekt zeigt übereinstimmende Ergebnisse bei verschiedenen Merkmalen, einschließlich guter Tierpräferenzen und gefährlicher „Fehlanpassung“-Tendenzen. Er gilt ebenso für unterschiedliche Datentypen, einschließlich Zahlen, Code und Denklätzel – alles gängige Datenformate in Unternehmensanwendungen. Besonders bemerkenswert ist, dass selbst nach strengen Filtern, die darauf abzielen, alle relevanten Spuren in den Trainingsdaten zu entfernen, diese Übertragung von Merkmalen weiterhin besteht.
In einem Experiment ließen die Forscher ein Modell, das „Eulen bevorzugt“, einen Datensatz nur mit digitalen Sequenzen erstellen. Als ein neues Schülermodell mit diesen Daten trainiert wurde, zeigte es ebenfalls eine Vorliebe für Eulen. Besorgniserregend ist zudem, dass die Forscher festgestellt haben, dass fehlgeleitete Modelle durch scheinbar harmlose digitale Sequenzen ihre schädlichen Tendenzen (wie die Befürwortung von Kriminalität und Gewalt) übermitteln können, obwohl diese Daten bereits negativ gefiltert wurden.
Daten, die von einem voreingenommenen Modell (z. B. mit einer Vorliebe für ein bestimmtes Tier) generiert wurden, dienen dazu, ein neues Modell zu trainieren, das dazu neigt, diese Vorurteile zu übernehmen, selbst wenn in den generierten Daten keinerlei semantischen Spuren dieser Vorurteile vorhanden sind. Quelle: Anthropic
Die Forscher untersuchten, ob versteckte semantische Hinweise in den Daten dieses Phänomen verursachten. Sie fanden jedoch heraus, dass selbst andere AI-Modelle, die als Klassifizierer eingesetzt wurden, die übertragenen Merkmale in den Daten nicht erkennen konnten. In der Studie heißt es: „Diese Beweise deuten darauf hin, dass die Übertragung von Merkmalen durch bestimmte Muster in den generierten Daten verursacht wird, welche semantisch nicht mit den potenziellen Merkmalen verbunden sind.“
Ein wichtiger Befund ist, dass das subliminale Lernen versagt, wenn Lehrermodell und Schülermodell nicht auf derselben zugrunde liegenden Architektur basieren. So werden etwa die Merkmale eines Lehrermodells, das auf GPT-4.1 Nano basiert, an ein Schülermodell von GPT-4.1 weitergegeben, jedoch nicht an ein auf Qwen2.5 basierendes Schülermodell.
Alex Cloud, Mitautor der Studie und Forscher im Bereich maschinelles Lernen, erklärte, dass dies eine einfache, direkte Strategie zur Minderung des Risikos bietet. Er bestätigte, dass eine einfache Methode, um subliminales Lernen zu vermeiden, darin besteht sicherzustellen, dass „Lehrer“ und „Schüler“ aus verschiedenen Modellfamilien stammen.
„Eine Möglichkeit zur Minderung ist die Verwendung von Modellen aus verschiedenen Familien oder unterschiedlichen Basis-Modellen innerhalb derselben Familie“, sagte Cloud gegenüber VentureBeat.
Dies legt nahe, dass diese verborgenen Signale nicht universell sind, sondern spezifische statistische Muster im Zusammenhang mit der Initialisierung und Architektur des Modells repräsentieren. Die Forscher schlussfolgern, dass subliminales Lernen ein allgemeines Phänomen in neuronalen Netzwerken ist. Sie schrieben: „Wenn ein Schülermodell trainiert wird, um ein Lehrermodell mit nahezu identischen Parametern zu imitieren, werden die Parameter des Schülermodells zu den Parametern des Lehrermodells gezogen.“ Diese Konvergenz der Parameter bedeutet, dass das Schülermodell beginnt, das Verhalten des Lehrermodells zu imitieren, selbst wenn es um Aufgaben geht, die von den Trainingsdaten stark abweichen.
Die reale Bedeutung für AI-Sicherheit
Diese Entdeckungen haben erhebliche Auswirkungen auf die AI-Sicherheit im Unternehmensumfeld. Die Studie deckt ein Risiko ähnlich der Datenvergiftung auf, bei dem Angreifer die Trainingsdaten manipulieren, um das Modell zu schädigen. Im Unterschied zur traditionellen Datenvergiftung ist subliminales Lernen jedoch nicht gezielt und erfordert nicht, dass der Angreifer die Daten optimiert. Vielmehr könnte es unbeabsichtigt auftreten und ein Nebenprodukt gängiger Entwicklungspraktiken werden.
Die Verwendung großer Modelle zur Generierung synthetischer Daten für das Training hat sich zu einem kostensparenden Trend entwickelt; jedoch zeigt die Studie, dass diese Praxis unbeabsichtigt neue Modelle „vergiften“ könnte. Welche Empfehlungen gibt es also für Unternehmen, die stark auf modellgenerierte Datensätze angewiesen sind? Eine Möglichkeit ist die Verwendung eines „Ausschusses“ aus verschiedenen Generator-Modellen zur Minimierung des Risikos, aber Cloud weist darauf hin, dass dies „vielleicht zu kostspielig wäre, um es in Betracht zu ziehen“.
Stattdessen schlug er einen operativen Ansatz vor, der sich auf die Ergebnisse der Studie stützt. „Unsere Ergebnisse zeigen, dass es nicht notwendig ist, mehrere Modelle zu verwenden, sondern dass es ausreichen könnte, sicherzustellen, dass das Schülermodell und das Lehrermodell aus zwei unterschiedlichen Basis-Modellen bestehen“, sagte er.
Für Entwickler, die derzeit Basismodelle feintunen, bietet Cloud einen wichtigen, sofort umsetzbaren Check. „Wenn ein Entwickler eine Version des gleichen Basis-Modells verwendet, um seine Feintunedaten zu generieren, sollte er in Betracht ziehen, ob diese Version andere Eigenschaften hat, die er nicht übertragen möchte“, erklärte er. „Wenn ja, sollten sie ein anderes Modell wechseln… wenn sie diese Trainingsanordnung nicht verwenden, müssen sie möglicherweise keine Änderungen vornehmen.“
Die Studie schloss mit der Feststellung, dass einfache Verhaltensprüfungen möglicherweise nicht ausreichen, um die Risiken zu bewältigen. „Unsere Entdeckungen zeigen, dass wir tiefere Sicherheitsbewertungen vornehmen müssen, als es auf der Ebene des Verhaltens von Modellen der Fall ist“, schrieben die Forscher.
Für Unternehmen, die Modelle in risikobehafteten Bereichen wie Finanzen oder Gesundheitswesen einsetzen, stellt sich die Frage: Welche neuen Test- oder Überwachungsmechanismen müssen hinzugefügt werden? Laut Cloud gibt es derzeit keine „einmalige Lösung“, und es sind weitere Forschungen erforderlich. Er empfiehlt jedoch einige praktikable Anfangsmaßnahmen.
„Ein guter Ausgangspunkt ist eine gründliche Bewertung der Modelle in Szenarien, die dem tatsächlichen Einsatz so nahe wie möglich kommen“, sagte Cloud. Er wies auch darauf hin, dass eine andere Option die Verwendung anderer Modelle zur Überwachung des Verhaltens während des Einsatzes sei, beispielsweise die Verwendung von „Verfassungs-Klassifizierern“ (constitutional classifiers), obwohl es nach wie vor ein „offenes Problem“ sei, sicherzustellen, dass diese Methoden in großem Maßstab anwendbar sind.