Anthropic“显微镜”揭示AI Claude的推理过程

Edited by: Veronika Nazarova

领先的AI安全和研究公司Anthropic推出了新工具,可以深入了解高级语言模型的推理过程。这些工具就像AI的“显微镜”,使科学家能够追踪像Claude这样的模型内部的计算过程。这项研究旨在了解AI模型如何处理信息并生成响应。 研究人员现在可以绘制与特定能力(如推理和翻译)相关的“电路”。这种“电路追踪”方法允许在提示过程中更改内部表示。例如,修改Claude的诗歌规划状态会改变其押韵选择,这表明了模型内部的适应性。 即使在简单的任务中,Claude的内部运作也比表面上看起来的要复杂。该模型使用并行计算进行数学运算,在计算精确数字的同时估计总和。Anthropic的可解释性工具对于确保AI系统安全、可预测并与人类价值观保持一致至关重要。

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。