Le 'Microscope' d'Anthropic Révèle le Raisonnement de l'IA Claude

Edited by: Veronika Nazarova

Anthropic, une entreprise de premier plan dans la sécurité et la recherche en IA, a lancé de nouveaux outils offrant un aperçu du raisonnement des modèles de langage avancés. Ces outils agissent comme un 'microscope' pour l'IA, permettant aux scientifiques de retracer les calculs internes au sein de modèles comme Claude. La recherche vise à comprendre comment les modèles d'IA traitent l'information et génèrent des réponses. Les chercheurs peuvent désormais cartographier les 'circuits' liés à des capacités spécifiques telles que le raisonnement et la traduction. Cette méthode de 'traçage de circuit' permet de modifier les représentations internes en cours d'invite. Par exemple, la modification de l'état de planification poétique de Claude modifie ses choix de rimes, démontrant l'adaptabilité interne du modèle. Le fonctionnement interne de Claude est plus complexe qu'il n'y paraît, même dans les tâches simples. Le modèle utilise des calculs parallèles pour les mathématiques, estimant les sommes tout en calculant des chiffres précis. Les outils d'interprétabilité d'Anthropic sont essentiels pour garantir que les systèmes d'IA sont sûrs, prévisibles et alignés sur les valeurs humaines.

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.