主要なAI安全・研究企業であるAnthropicは、高度な言語モデルの推論に関する洞察を提供する新しいツールを発表しました。これらのツールは、AIの「顕微鏡」として機能し、科学者はClaudeのようなモデル内の内部計算を追跡できます。この研究は、AIモデルがどのように情報を処理し、応答を生成するかを理解することを目的としています。 研究者は、推論や翻訳などの特定の機能にリンクされた「回路」をマッピングできるようになりました。この「回路追跡」法により、プロンプトの途中で内部表現を変更できます。たとえば、Claudeの詩的な計画状態を変更すると、韻の選択が変わり、モデルの内部適応性が示されます。 Claudeの内部構造は、単純なタスクであっても、見た目よりも複雑です。モデルは数学に並列計算を使用し、正確な数字を計算しながら合計を推定します。Anthropicの解釈可能性ツールは、AIシステムが安全で予測可能であり、人間の価値観に沿っていることを保証するために不可欠です。
Anthropicの「顕微鏡」がAI Claudeの推論を明らかにする
Edited by: Veronika Nazarova
エラーや不正確な情報を見つけましたか?
できるだけ早くコメントを考慮します。