Önde gelen bir yapay zeka güvenliği ve araştırma şirketi olan Anthropic, gelişmiş dil modellerinin muhakemesine dair içgörüler sağlayan yeni araçlar başlattı. Bu araçlar, Claude gibi modellerdeki iç hesaplamaları izlemeye olanak tanıyarak yapay zeka için bir 'mikroskop' görevi görüyor. Araştırma, yapay zeka modellerinin bilgiyi nasıl işlediğini ve yanıtlar ürettiğini anlamayı amaçlıyor. Araştırmacılar artık muhakeme ve çeviri gibi belirli yeteneklerle bağlantılı 'devreleri' haritalayabiliyor. Bu 'devre izleme' yöntemi, istem ortasında dahili temsillerin değiştirilmesine olanak tanır. Örneğin, Claude'un şiirsel planlama durumunu değiştirmek, kafiye seçimlerini değiştirerek modelin dahili uyarlanabilirliğini gösterir. Claude'un iç işleyişi, basit görevlerde bile göründüğünden daha karmaşıktır. Model, matematik için paralel hesaplamalar kullanır, kesin rakamları hesaplarken toplamları tahmin eder. Anthropic'in yorumlanabilirlik araçları, yapay zeka sistemlerinin güvenli, öngörülebilir ve insan değerleriyle uyumlu olmasını sağlamak için çok önemlidir.
Anthropic'in 'Mikroskobu' Yapay Zeka Claude'un Muhakemesini Ortaya Çıkarıyor
Edited by: Veronika Nazarova
Bir hata veya yanlışlık buldunuz mu?
Yorumlarınızı en kısa sürede değerlendireceğiz.