Anthropic 的「顯微鏡」揭示 AI Claude 的推理過程

Edited by: Veronika Nazarova

領先的 AI 安全和研究公司 Anthropic 推出新工具,可以深入了解高級語言模型的推理過程。這些工具就像 AI 的「顯微鏡」,使科學家能夠追蹤像 Claude 這樣的模型內部的計算過程。這項研究旨在了解 AI 模型如何處理資訊並產生回應。 研究人員現在可以繪製與特定能力(如推理和翻譯)相關的「電路」。這種「電路追蹤」方法允許在提示過程中變更內部表示。例如,修改 Claude 的詩歌規劃狀態會改變其押韻選擇,這表明了模型內部的適應性。 即使在簡單的任務中,Claude 的內部運作也比表面上看起來的要複雜。該模型使用平行計算進行數學運算,在計算精確數字的同時估計總和。Anthropic 的可解釋性工具對於確保 AI 系統安全、可預測並與人類價值觀保持一致至關重要。

发现错误或不准确的地方吗?

我们会尽快处理您的评论。