單一神經元即可瓦解大型語言模型的安全防禦

16:46, 12 五月

编辑者： Aleksandr Lytviak

在追求人工智慧安全的競賽中，研究人員發現了一個意想不到的致命弱點：僅需對神經網路中單一個細胞進行微小干預，整個安全對齊系統就可能毀於一旦。

這項名為《單一神經元足以繞過大型語言模型安全對齊》（A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models，作者：Hamid Kazemi、Atoosa Chegini、Maria Safi）的研究揭示了這一關鍵漏洞。

研究證實，在大型語言模型中，單純透過抑制或活化一個神經元，便足以繞過內建的安全拒絕機制。神經元可分為兩類：負責攔截有害內容的「拒絕神經元」，以及編碼有害知識本身的「概念神經元」。一旦抑制了某個拒絕神經元，模型便會開始回應明顯具備危害性的請求。若強化某個概念神經元，即使輸入完全無害的提示語，模型也會被強制生成有害內容。
這種操作無需經過任何模型微調，也不需要特殊的指令誘導，僅需對模型內部進行精準的點對點干預即可實現。
該實驗已針對兩個系列、參數規模從 17 億到 700 億不等的七款主流模型完成了測試。
研究人員得出結論：安全對齊並非均勻分布於模型權重之中，而是與特定神經元密切相關，這些神經元對於「拒絕」或「允許」有害行為具有「因果上的充足性」。

此類漏洞對現代對齊技術的基礎架構提出了根本性挑戰。儘管各大企業投入數百萬美元建立多層過濾與人工監督機制，最終結果卻顯得異常脆弱。開發者的商業動機顯而易見：為了搶佔市場先機，他們往往追求產品快速疊代，而對每個參數進行深度安全檢測所需的時間與資源卻往往捉襟見肘。

對一般使用者而言，這意味著對「安全」聊天機器人的信任可能只是一種幻象。僅需程式碼中的微小變動，甚至是一次偶發的系統錯誤，就足以讓模型的行為產生劇變。這可以類比為橋樑上的一個脆弱鉚釘：在特定負載下，單一點的失效就足以導致整個結構崩塌。

專家指出，這類發現正推動產業轉向尋找更具韌性的防禦手段。與其試圖封鎖每一個危險詞彙，更明智的做法是開發能原生理解上下文及其回應後果的模型。然而，目前的現狀仍以「修補漏洞」的應急手段為主，這僅能提供一種暫時受控的假象。

總結來說，在運用語言模型時，應當採取額外的多層驗證機制，而不應完全寄託於系統內建的限制。

7 浏览量

來源

A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

通知中心

單一神經元即可瓦解大型語言模型的安全防禦

來源

阅读更多关于此主题的文章：