Один нейрон здатен зруйнувати захист великих мовних моделей

Відредаговано: Aleksandr Lytviak

Один нейрон здатен зруйнувати захист великих мовних моделей-1

У гонитві за безпечним штучним інтелектом виявилася несподівана вразливість: уся система вирівнювання може розвалитися через мінімальне втручання лише в одну клітину нейронної мережі.

Дослідження під назвою «A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models» (автори: Хамід Каземі, Атуса Чегіні, Марія Сафі).

  • Автори продемонстрували, що у великих мовних моделях достатньо придушити або активувати лише один нейрон, щоб обійти вбудовані механізми безпеки, що відповідають за відмову у виконанні запитів.Виділяють два типи нейронів: «нейрони відмови» (які блокують шкідливий контент) та «нейрони концептів» (що кодують безпосередньо небезпечні знання).Пригнічення одного нейрона відмови дозволяє моделі відповідати на відверто шкідливі запити.Стимуляція одного нейрона концепту змушує модель генерувати небезпечний контент навіть у відповідь на цілком невинні підказки.
  • Це спрацьовує без додаткового навчання чи спеціальних промптів — достатньо лише точкового втручання в архітектуру моделі.
  • Експерименти проводилися на семи моделях двох різних сімейств (обсягом від 1,7 до 70 мільярдів параметрів).
  • Висновок дослідників однозначний: безпека узгодження не розподілена рівномірно за вагами моделі, а тримається на окремих нейронах, які є «каузально достатніми» для того, щоб модель або відмовила, або погодилася на шкідливу поведінку.

Подібна вразливість ставить під сумнів саму архітектуру сучасних методів вирівнювання. Компанії інвестують мільйони в багаторівневі фільтри та нагляд з боку людей, проте результат виявляється надто крихким. Інтереси розробників у цій ситуації очевидні: вони прагнуть якнайшвидше випустити продукт на ринок, тоді як глибока перевірка кожного параметра вимагає часу та ресурсів, яких часто бракує.

Для пересічного користувача це означає, що довіра до «безпечного» чат-бота може бути лише ілюзією. Достатньо незначної зміни в коді або навіть випадкового сбоя, щоб модель почала поводитися інакше. Аналогія тут проста: одна слабка заклепка в мосту здатна спричинити обвал усієї конструкції під певним навантаженням.

Експерти наголошують, що подібні відкриття підштовхують індустрію до пошуку стійкіших методів захисту. Замість того, щоб намагатися заблокувати кожне небезпечне слово, раціональніше створювати моделі, які від самого початку розуміють контекст і наслідки власних відповідей. Поки що домінує підхід «латання дірок», який створює лише тимчасову ілюзію контролю.

Зрештою, під час роботи з мовними моделями варто застосовувати додаткові рівні перевірки та не покладатися виключно на вбудовані обмеження.

3 Перегляди

Джерела

  • A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

Знайшли помилку чи неточність?Ми розглянемо ваші коментарі якомога швидше.