Anthropic“显微镜”揭示AI Claude的推理过程

05:42, 19 四月

编辑者： Veronika Nazarova

领先的AI安全和研究公司Anthropic推出了新工具，可以深入了解高级语言模型的推理过程。这些工具就像AI的“显微镜”，使科学家能够追踪像Claude这样的模型内部的计算过程。这项研究旨在了解AI模型如何处理信息并生成响应。研究人员现在可以绘制与特定能力（如推理和翻译）相关的“电路”。这种“电路追踪”方法允许在提示过程中更改内部表示。例如，修改Claude的诗歌规划状态会改变其押韵选择，这表明了模型内部的适应性。即使在简单的任务中，Claude的内部运作也比表面上看起来的要复杂。该模型使用并行计算进行数学运算，在计算精确数字的同时估计总和。Anthropic的可解释性工具对于确保AI系统安全、可预测并与人类价值观保持一致至关重要。

Anthropic“显微镜”揭示AI Claude的推理过程

阅读更多关于该主题的新闻：