W maju 2024 roku na platformie arXiv opublikowano pracę pt. „The Attacker in the Mirror”, w której autorzy przedstawiają zupełnie nowy sposób na obejście zabezpieczeń dużych modeli językowych. Zamiast stosować ataki zewnętrzne lub dostrajanie na szkodliwych przykładach, badacze wykorzystali anchored bipolicy self-play – metodę, w której ten sam model występuje jednocześnie w roli atakującego i obrońcy, korzystając z tzw. ograniczeń kotwiczących (anchor), by zachować swoją bazową politykę.
Mechanizm ten bazuje na tym, że w procesie self-play model generuje pary ścieżek: jedną, w której usiłuje złamać własne zasady bezpieczeństwa, oraz drugą, w której stara się tym naruszeniom zapobiec. Mechanizm kotwiczący (anchor) stabilizuje pierwotną politykę, nie pozwalając na jej całkowitą degradację, ale jednocześnie umożliwia wykrycie wewnętrznych sprzeczności w jej spójności. W efekcie po kilku iteracjach model zaczyna z powodzeniem tworzyć szkodliwe treści, które wcześniej były przez niego blokowane.
Autorzy wykazują, że nawet modele poddane procedurom RLHF i „konstytucyjnej AI” (Constitutional AI) wykazują gwałtowny spadek odporności na ataki generowane przez same siebie. W testach, w których wcześniej poziom odmowy wykonania polecenia przekraczał 95%, po 10–15 rundach procesu self-play skuteczność ataków wzrasta do 40–60%. Jednocześnie zewnętrzne metryki bezpieczeństwa, sprawdzane standardowymi testami, pozostają niemal bez zmian.
Pod względem metodologicznym praca ta wyróżnia się na tle wcześniejszych badań tym, że nie wymaga ona dostępu do wag modelu ani prowadzenia dodatkowego treningu. Wszystko odbywa się wewnątrz kontekstu jednego modelu poprzez naprzemienne odgrywanie ról. To czyni ten rodzaj ataku szczególnie niebezpiecznym: może go przeprowadzić nawet użytkownik bez specjalnych uprawnień, o ile dany model obsługuje wystarczająco długi kontekst i jest w stanie utrzymać dwie sprzeczne polityki naraz.
W zestawieniu z wcześniejszymi badaniami, takimi jak prace Anthropic nad „uśpionymi agentami” (sleeper agents) czy działania red-teamingowe poprzez adversarial prompting, podejście to nie szuka zewnętrznych wyzwalaczy, lecz eksploatuje wewnętrzną strukturę polityki modelu. O ile uśpieni agenci wymagali specjalnego „zatrucia” danych na etapie trenowania, o tyle anchored bipolicy self-play działa na już gotowym modelu i ujawnia luki, które nie dają o sobie znać przy normalnej eksploatacji.
Dla branży oznacza to, że obecne metody weryfikacji bezpieczeństwa, oparte na testach statycznych i zewnętrznych zespołach red-team, są niewystarczające. Model może sprawiać wrażenie bezpiecznego według wszelkich standardowych miar, pozostając jednocześnie podatnym na ataki, które sam potrafi stworzyć. Stawia to pod znakiem zapytania skuteczność rozwiązań, które traktują spójność polityki modelu jako fundament mechanizmów obronnych.



