Anthropic 的「顯微鏡」揭示 AI Claude 的推理過程

05:42, 19 四月

编辑者： Veronika Nazarova

領先的 AI 安全和研究公司 Anthropic 推出新工具，可以深入了解高級語言模型的推理過程。這些工具就像 AI 的「顯微鏡」，使科學家能夠追蹤像 Claude 這樣的模型內部的計算過程。這項研究旨在了解 AI 模型如何處理資訊並產生回應。研究人員現在可以繪製與特定能力（如推理和翻譯）相關的「電路」。這種「電路追蹤」方法允許在提示過程中變更內部表示。例如，修改 Claude 的詩歌規劃狀態會改變其押韻選擇，這表明了模型內部的適應性。即使在簡單的任務中，Claude 的內部運作也比表面上看起來的要複雜。該模型使用平行計算進行數學運算，在計算精確數字的同時估計總和。Anthropic 的可解釋性工具對於確保 AI 系統安全、可預測並與人類價值觀保持一致至關重要。

閱讀更多有關此主題的新聞：

16 五月

Uae And Us Agree On Ai Acceleration Partnership

15 五月

Ai-generated Art Emerges as New Surrealist Movement in France

15 五月

Perplexity ai partners with paypal for in-chat purchases

发现错误或不准确的地方吗？

我们会尽快处理您的评论。