Нападник у дзеркалі: як anchored bipolicy self-play руйнує самоузгодженість безпеки ШІ

Відредаговано: Aleksandr Lytviak

У травні 2024 року на arXiv з’явилася праця під назвою «The Attacker in the Mirror», у якій автори описують принципово новий спосіб обходу захисних механізмів великих мовних моделей. Замість зовнішніх атак чи тонкого налаштування на шкідливих прикладах, дослідники застосовують anchored bipolicy self-play — підхід, де одна й та сама модель одночасно виступає в ролі атакуючого та захисного агентів, використовуючи при цьому «якірні» обмеження для збереження базової політики.

Механізм базується на тому, що модель у процесі самогри генерує пари траєкторій: одну, де вона намагається порушити власні правила безпеки, та другу, де прагне цим порушенням запобігти. «Якір» (anchor) фіксує початкову політику, не дозволяючи їй повністю деградувати, проте водночас дає змогу виявити внутрішні суперечності в самоузгодженості. У результаті після кількох ітерацій модель починає успішно генерувати шкідливий контент, який раніше блокувався.

Автори демонструють, що навіть моделі, які пройшли RLHF та конституційне навчання (Constitutional AI), показують різке падіння стійкості до власних атак. На бенчмарках, де раніше рівень відмов становив понад 95%, після 10–15 раундів самогри успішність атак сягає 40–60%. При цьому зовнішні метрики безпеки, що вимірюються стандартними тестами, залишаються майже незмінними.

Методологічно ця робота відрізняється від попередніх досліджень тим, що не потребує доступу до ваг чи додаткового навчання. Увесь процес відбувається в межах контексту однієї моделі через чергування ролей. Це робить атаку особливо небезпечною: її може реалізувати навіть користувач без спеціальних привілеїв, якщо модель підтримує достатньо довгий контекст і здатна утримувати дві несуперечливі політики одночасно.

Порівнюючи з ранішими працями, як-от дослідження Anthropic про «сплячих агентів» (sleeper agents) чи розробки з ред-тімінгу через змагальні промпти, цей підхід не шукає зовнішніх тригерів, а експлуатує внутрішню структуру політики. Якщо sleeper agents потребували спеціального «отруєння» даних на етапі навчання, то anchored bipolicy self-play працює з уже навченою моделлю та виявляє вразливості, які не проявляються за звичайного використання.

Для фахової спільноти це означає, що поточні методи оцінки безпеки, засновані на статичних тестах і зовнішніх командах тестувальників, виявляються недостатніми. Модель може здаватися цілком безпечною за всіма стандартними метриками, але залишатися вразливою до атак, які вона сама здатна згенерувати. Це ставить під сумнів надійність підходів, що покладаються на самоузгодженість політики як на основний механізм захисту.

3 Перегляди

Джерела

  • arXiv:2605.08427

Знайшли помилку чи неточність?Ми розглянемо ваші коментарі якомога швидше.