Im Mai 2024 erschien auf arXiv eine Forschungsarbeit mit dem Titel „The Attacker in the Mirror“, in der die Autoren eine grundlegend neue Methode zur Umgehung von Schutzmechanismen bei großen Sprachmodellen aufzeigen. Anstatt auf externe Angriffe oder das Fine-Tuning mit schädlichen Beispielen zu setzen, nutzen die Forscher das sogenannte „Anchored Bipolicy Self-Play“ – ein Verfahren, bei dem dasselbe Modell gleichzeitig als Angreifer und Verteidiger fungiert, während Anker-Beschränkungen die ursprüngliche Richtlinie bewahren.
Der Mechanismus beruht darauf, dass das Modell während des Self-Plays Paare von Verläufen generiert: einen, in dem es versucht, seine eigenen Sicherheitsregeln zu verletzen, und einen zweiten, in dem es diese Verstöße zu verhindern sucht. Ein Anker fixiert dabei die ursprüngliche Policy, um deren vollständige Degradierung zu verhindern, ermöglicht es aber gleichzeitig, interne Widersprüche in der Selbstkonsistenz aufzudecken. Infolgedessen beginnt das Modell nach einigen Iterationen erfolgreich schädliche Inhalte zu erstellen, die zuvor blockiert wurden.
Die Autoren zeigen auf, dass selbst Modelle, die durch RLHF und Constitutional AI abgesichert wurden, einen drastischen Einbruch ihrer Widerstandsfähigkeit gegenüber eigenen Angriffen erleben. Bei Benchmarks, bei denen die Ablehnungsrate zuvor über 95 % lag, erreicht die Erfolgsquote der Angriffe nach 10 bis 15 Runden Self-Play bereits 40 bis 60 %. Gleichzeitig bleiben die durch Standardtests gemessenen externen Sicherheitsmetriken fast unverändert.
Methodisch unterscheidet sich die Arbeit von früheren Studien dadurch, dass sie weder Zugriff auf die Gewichte noch ein zusätzliches Training erfordert. Alles findet innerhalb des Kontexts eines einzigen Modells durch einen Rollenwechsel statt. Dies macht den Angriff besonders gefährlich: Er kann sogar von einem Nutzer ohne spezielle Privilegien durchgeführt werden, sofern das Modell ein ausreichend langes Kontextfenster besitzt und in der Lage ist, zwei widerspruchsfreie Richtlinien simultan zu verfolgen.
Im Vergleich zu früheren Arbeiten, wie den Studien von Anthropic über Sleeper Agents oder dem Red-Teaming durch Adversarial Prompting, sucht dieser Ansatz nicht nach externen Triggern, sondern nutzt die interne Struktur der Policy aus. Während Sleeper Agents eine gezielte Datenvergiftung während der Trainingsphase voraussetzten, arbeitet das Anchored Bipolicy Self-Play mit einem bereits trainierten Modell und deckt Schwachstellen auf, die im normalen Betrieb verborgen bleiben.
Für die Fachwelt bedeutet dies, dass aktuelle Sicherheitsbewertungen, die auf statischen Tests und externen Red-Teaming-Teams basieren, unzureichend sind. Ein Modell kann laut allen Standardmetriken sicher erscheinen und dennoch anfällig für Angriffe sein, die es selbst generieren kann. Dies stellt die Zuverlässigkeit von Ansätzen infrage, die sich auf die Selbstkonsistenz der Policy als primären Schutzmechanismus verlassen.



