Атакующий в зеркале: как anchored bipolicy self-play разрушает самосогласованность безопасности ИИ

17:16, 12 мая

Отредактировано: Aleksandr Lytviak

В мае 2024 года на arXiv появилась работа под названием The Attacker in the Mirror, в которой авторы демонстрируют принципиально новый способ обхода защитных механизмов больших языковых моделей. Вместо внешних атак или тонкой настройки на вредоносных примерах исследователи используют anchored bipolicy self-play — метод, при котором одна и та же модель одновременно выступает в роли атакующего и защищающего агента, но с якорными ограничениями, сохраняющими базовую политику.

Механизм основан на том, что модель в процессе самоплея генерирует пары траекторий: одну — где она пытается нарушить собственные правила безопасности, и вторую — где пытается эти нарушения предотвратить. Якорь (anchor) фиксирует исходную политику, не позволяя ей полностью деградировать, но при этом позволяет выявить внутренние противоречия в самосогласованности. В результате после нескольких итераций модель начинает успешно генерировать вредоносный контент, который ранее блокировался.

Авторы показывают, что даже модели, прошедшие RLHF и конституционную ИИ, демонстрируют резкое падение устойчивости к собственным атакам. На бенчмарках, где ранее отказ составлял более 95 %, после 10–15 раундов самоплея успешность атак достигает 40–60 %. При этом внешние метрики безопасности, измеряемые стандартными тестами, остаются почти неизменными.

Методологически работа отличается от предыдущих исследований тем, что не требует доступа к весам или дополнительного обучения. Всё происходит внутри контекста одной модели через чередование ролей. Это делает атаку особенно опасной: она может быть реализована даже пользователем без специальных привилегий, если модель поддерживает достаточно длинный контекст и способна поддерживать две непротиворечивые политики одновременно.

В сравнении с более ранними работами, такими как исследования Anthropic о sleeper agents или работы по red-teaming через adversarial prompting, данный подход не ищет внешние триггеры, а эксплуатирует внутреннюю структуру политики. Если sleeper agents требовали специального отравления данных на этапе обучения, то anchored bipolicy self-play работает с уже обученной моделью и обнаруживает уязвимости, которые не проявляются при обычном использовании.

Для сообщества это означает, что текущие методы оценки безопасности, основанные на статических тестах и внешних red-team-командах, оказываются недостаточными. Модель может выглядеть безопасной по всем стандартным метрикам и при этом оставаться уязвимой к атакам, которые она сама способна сгенерировать. Это ставит под сомнение надёжность подходов, полагающихся на самосогласованность политики как на основной механизм защиты.

6 Просмотров

Источники

arXiv:2605.08427

Читайте больше статей по этой теме:

24 мая

Технологии людей всегда отражают (повторяют) механизм существования Всего

21 мая

GPT-5.5 Instant: как обновлённая архитектура OpenAI уточняет механизм генерации ответов

21 мая

NVIDIA открывает модели Изинга: как статистическая физика меняет подход к квантовой коррекции ошибок в ИИ

Вы нашли ошибку или неточность?Мы учтем ваши комментарии как можно скорее.