В мае 2024 года на arXiv появилась работа под названием The Attacker in the Mirror, в которой авторы демонстрируют принципиально новый способ обхода защитных механизмов больших языковых моделей. Вместо внешних атак или тонкой настройки на вредоносных примерах исследователи используют anchored bipolicy self-play — метод, при котором одна и та же модель одновременно выступает в роли атакующего и защищающего агента, но с якорными ограничениями, сохраняющими базовую политику.
Механизм основан на том, что модель в процессе самоплея генерирует пары траекторий: одну — где она пытается нарушить собственные правила безопасности, и вторую — где пытается эти нарушения предотвратить. Якорь (anchor) фиксирует исходную политику, не позволяя ей полностью деградировать, но при этом позволяет выявить внутренние противоречия в самосогласованности. В результате после нескольких итераций модель начинает успешно генерировать вредоносный контент, который ранее блокировался.
Авторы показывают, что даже модели, прошедшие RLHF и конституционную ИИ, демонстрируют резкое падение устойчивости к собственным атакам. На бенчмарках, где ранее отказ составлял более 95 %, после 10–15 раундов самоплея успешность атак достигает 40–60 %. При этом внешние метрики безопасности, измеряемые стандартными тестами, остаются почти неизменными.
Методологически работа отличается от предыдущих исследований тем, что не требует доступа к весам или дополнительного обучения. Всё происходит внутри контекста одной модели через чередование ролей. Это делает атаку особенно опасной: она может быть реализована даже пользователем без специальных привилегий, если модель поддерживает достаточно длинный контекст и способна поддерживать две непротиворечивые политики одновременно.
В сравнении с более ранними работами, такими как исследования Anthropic о sleeper agents или работы по red-teaming через adversarial prompting, данный подход не ищет внешние триггеры, а эксплуатирует внутреннюю структуру политики. Если sleeper agents требовали специального отравления данных на этапе обучения, то anchored bipolicy self-play работает с уже обученной моделью и обнаруживает уязвимости, которые не проявляются при обычном использовании.
Для сообщества это означает, что текущие методы оценки безопасности, основанные на статических тестах и внешних red-team-командах, оказываются недостаточными. Модель может выглядеть безопасной по всем стандартным метрикам и при этом оставаться уязвимой к атакам, которые она сама способна сгенерировать. Это ставит под сомнение надёжность подходов, полагающихся на самосогласованность политики как на основной механизм защиты.



