Anthropic, sebuah perusahaan riset dan keamanan AI terkemuka, telah meluncurkan alat baru yang memberikan wawasan tentang penalaran model bahasa tingkat lanjut. Alat-alat ini bertindak sebagai 'mikroskop' untuk AI, memungkinkan para ilmuwan untuk melacak komputasi internal dalam model seperti Claude. Penelitian ini bertujuan untuk memahami bagaimana model AI memproses informasi dan menghasilkan respons. Para peneliti sekarang dapat memetakan 'sirkuit' yang terkait dengan kemampuan spesifik seperti penalaran dan terjemahan. Metode 'pelacakan sirkuit' ini memungkinkan perubahan representasi internal di tengah perintah. Misalnya, memodifikasi keadaan perencanaan puitis Claude mengubah pilihan sajaknya, yang menunjukkan kemampuan beradaptasi internal model. Cara kerja internal Claude lebih kompleks dari yang terlihat, bahkan dalam tugas-tugas sederhana. Model ini menggunakan komputasi paralel untuk matematika, memperkirakan jumlah sambil menghitung digit yang tepat. Alat interpretasi Anthropic sangat penting untuk memastikan sistem AI aman, dapat diprediksi, dan selaras dengan nilai-nilai manusia.
'Mikroskop' Anthropic Mengungkap Penalaran AI Claude
Edited by: Veronika Nazarova
Apakah Anda menemukan kesalahan atau ketidakakuratan?
Kami akan mempertimbangkan komentar Anda sesegera mungkin.