Anthropic'in 'Mikroskobu' Yapay Zeka Claude'un Muhakemesini Ortaya Çıkarıyor

Edited by: Veronika Nazarova

Önde gelen bir yapay zeka güvenliği ve araştırma şirketi olan Anthropic, gelişmiş dil modellerinin muhakemesine dair içgörüler sağlayan yeni araçlar başlattı. Bu araçlar, Claude gibi modellerdeki iç hesaplamaları izlemeye olanak tanıyarak yapay zeka için bir 'mikroskop' görevi görüyor. Araştırma, yapay zeka modellerinin bilgiyi nasıl işlediğini ve yanıtlar ürettiğini anlamayı amaçlıyor. Araştırmacılar artık muhakeme ve çeviri gibi belirli yeteneklerle bağlantılı 'devreleri' haritalayabiliyor. Bu 'devre izleme' yöntemi, istem ortasında dahili temsillerin değiştirilmesine olanak tanır. Örneğin, Claude'un şiirsel planlama durumunu değiştirmek, kafiye seçimlerini değiştirerek modelin dahili uyarlanabilirliğini gösterir. Claude'un iç işleyişi, basit görevlerde bile göründüğünden daha karmaşıktır. Model, matematik için paralel hesaplamalar kullanır, kesin rakamları hesaplarken toplamları tahmin eder. Anthropic'in yorumlanabilirlik araçları, yapay zeka sistemlerinin güvenli, öngörülebilir ve insan değerleriyle uyumlu olmasını sağlamak için çok önemlidir.

Bir hata veya yanlışlık buldunuz mu?

Yorumlarınızı en kısa sürede değerlendireceğiz.