鏡像攻擊者：錨定雙策略自我博弈如何瓦解 AI 安全的自我一致性

17:16, 12 五月

编辑者： Aleksandr Lytviak

2024 年 5 月，arXiv 上發表了一篇名為《鏡中攻擊者》（The Attacker in the Mirror）的論文，作者在文中展示了一種規避大型語言模型防禦機制的全新方法。研究人員並未採用外部攻擊或針對有害樣本進行微調，而是使用了「錨定雙策略自我博弈」（anchored bipolicy self-play）技術，讓同一個模型同時扮演攻擊者與防禦者的角色，並透過錨定限制來保留其基礎策略。

該機制的原理在於，模型在自我博弈過程中會生成成對的執行軌跡：一條試圖違反自身的安全規則，另一條則試圖防止這些違規行為。所謂的「錨點」（anchor）能固定原始策略以防止其完全退化，但同時也能揭露自我一致性中的內在矛盾。結果顯示，在經過幾次迭代後，模型便能成功生成先前會被阻斷的有害內容。

研究作者指出，即使是經過 RLHF 和「憲法 AI」（Constitutional AI）訓練的模型，在面對自身攻擊時的韌性也會急劇下降。在先前拒絕率超過 95% 的基準測試中，經過 10 到 15 輪自我博弈後，攻擊成功率竟達到了 40% 至 60%。與此同時，透過標準測試衡量的外部安全指標卻幾乎保持不變。

在方法論上，這項工作與以往研究的不同之處在於，它不需要獲取模型權重或進行額外訓練。整個過程都發生在單一模型的上下文之中，單純透過角色輪換來達成。這使得此類攻擊變得特別危險：只要模型支援足夠長的上下文，且能同時維持兩種不相矛盾的策略，一般使用者即使不具備特殊權限也能實施攻擊。

與 Anthropic 關於「睡眠代理人」（sleeper agents）或透過對抗性提示進行紅隊測試等早期研究相比，這種方法並非尋找外部觸發因素，而是利用了策略的內在結構。睡眠代理人需要在訓練階段進行特定的數據投毒，而「錨定雙策略自我博弈」則直接作用於已訓練完成的模型，並挖掘出在一般使用情況下不會顯現的漏洞。

對於 AI 社群而言，這意味著目前基於靜態測試和外部紅隊開發的安全性評估方法已顯得捉襟見肘。一個模型可能在所有標準指標下都顯得十分安全，卻依然容易受到其自身所能生成的攻擊。這讓那些將策略自我一致性視為主要防禦機制的做法，其可靠性受到了嚴峻的質疑。

6 浏览量

來源

arXiv:2605.08427

通知中心

鏡像攻擊者：錨定雙策略自我博弈如何瓦解 AI 安全的自我一致性

來源

阅读更多关于此主题的文章：