1つのニューロンが大規模言語モデルの安全保護を破壊する可能性

16:46, 12 5月

編集者： Aleksandr Lytviak

安全な人工知能の開発競争において、ニューラルネットワーク内のわずか1つの細胞へ最小限の介入を行うだけでシステム全体の安全調整（アライメント）が崩壊し得るという、予期せぬ脆弱性が明らかになりました。

これは、Hamid Kazemi氏、Atoosa Chegini氏、Maria Safi氏らによる研究論文『A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models』にて発表された内容です。

著者らは、大規模言語モデル（LLM）において、特定のニューロン1つを抑制（suppress）または活性化させるだけで、組み込みの安全機構（refusal）を回避できることを実証しました。これには、有害なコンテンツをブロックする「拒絶ニューロン（refusal neurons）」と、有害な知識そのものをコード化している「概念ニューロン（concept neurons）」の2種類が存在します。拒絶ニューロンを1つ抑制するだけで、モデルは明らかに有害な要求に対しても回答するようになります。一方で概念ニューロンを1つ強化すると、無害なプロンプトに対してもモデルが強制的に有害な内容を生成するようになります。
この手法は追加学習や特殊なプロンプトを必要とせず、モデル内部へのピンポイントな介入のみで機能します。
実験は、1.7Bから70Bのパラメータを持つ2つのモデルファミリーに属する計7つのモデルでテストされました。
研究チームは、安全アライメントはモデルの重み全体に均等に分散されているわけではなく、有害な挙動を拒絶または許容するのに「因果的に十分な」特定のニューロンに依存していると結論付けています。

このような脆弱性は、現代のアライメント手法の設計思想そのものに疑問を投げかけています。企業は多層的なフィルタリングや人間による監視に多額の投資を行っていますが、その成果は極めて脆いことが判明しました。開発者側の利害関係は明白であり、彼らは製品の市場投入を急ぐ一方で、個々のパラメータを詳細に検証するために必要な時間やリソースが往々にして不足しているのが現状です。

一般ユーザーにとって、これは「安全な」チャットボットへの信頼が幻想に過ぎない可能性を意味します。コードのわずかな変更や偶発的なエラーだけでも、モデルの挙動が豹変するのには十分なのです。ここでの比喩は単純で、橋のたった1本の弱いリベットが、特定の負荷がかかった際に構造物全体の崩壊を招くようなものです。

専門家は、こうした発見が業界に対して、より堅牢な手法の探求を促すものだと指摘しています。危険な単語を一つずつブロックしようとするのではなく、最初から文脈や回答の影響を理解するモデルを構築する方が賢明だといえます。しかし現状では「その場しのぎの穴埋め」的なアプローチが主流であり、それは一時的な支配の錯覚を与えているに過ぎません。

結局のところ、言語モデルを利用する際には、組み込みの制限だけに頼ることなく、追加の検証レイヤーを適用すべきでしょう。

7 ビュー