单个神经元即可瓦解大语言模型的安全防御

16:46, 12 五月

编辑者： Aleksandr Lytviak

在追求人工智能安全的竞赛中，研究人员发现了一个意想不到的致命弱点：仅仅通过对神经网络中单个神经元的极小干预，整个安全对齐系统就可能彻底崩溃。

这项名为《单个神经元足以绕过大语言模型的安全对齐》（作者：Hamid Kazemi、Atoosa Chegini、Maria Safi）的研究揭示了这一现状。

作者证明，在大规模语言模型中，只需抑制或激活一个特定的神经元，就足以绕过内置的安全拦截机制。研究识别出两类关键神经元：负责拦截有害内容的“拒绝神经元”，以及编码有害知识本身的“概念神经元”。抑制单个拒绝神经元，会让模型开始回答明显的恶意请求。而增强单个概念神经元，则会诱导模型即使在面对无害提示时也生成违规内容。
这种攻击方式无需任何微调或特殊的提示词工程，仅需对模型内部进行精准的定点干预。
该结论已在两个系列的七款模型（参数量从 17 亿到 700 亿不等）中得到了验证。
研究人员得出结论：安全对齐在模型权重中并非均匀分布，而是高度依赖于特定神经元，这些神经元对于拒绝或允许有害行为具有“因果充分性”。

这种脆弱性让现代对齐方法的架构本身受到了质疑。尽管各大企业投入数百万美元用于多层过滤和人工监管，但最终的防御效果却显得异常脆弱。开发者们的利益导向显而易见：他们急于将产品推向市场，而对每个参数进行深度审查则需要耗费大量的时间和资源，这在现实中往往难以实现。

对普通用户而言，这意味着对“安全”聊天机器人的信任可能只是一种幻觉。仅仅是代码的细微改动，甚至是一个偶然的故障，都可能导致模型行为完全失准。这其中的逻辑非常简单：正如大桥上的一个劣质铆钉，在特定载荷下足以引发整座建筑的崩塌。

专家指出，此类发现正迫使行业寻求更稳健的安全防御手段。与其费力封锁每一个敏感词，不如开发能从根本上理解语境及其回答后果的模型。目前这种“补丁式”的处理方法，往往只能营造出一种暂时的受控假象。

总之，在应用语言模型时，应当增加额外的审核层级，而不能仅仅依赖其内置的安全限制。

7 查看

来源

A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models