Anthropic's 'Microscoop' Onthult het Redeneervermogen van AI Claude

Edited by: Veronika Nazarova

Anthropic, een toonaangevend bedrijf op het gebied van AI-veiligheid en -onderzoek, heeft nieuwe tools gelanceerd die inzicht bieden in het redeneervermogen van geavanceerde taalmodellen. Deze tools fungeren als een 'microscoop' voor AI, waardoor wetenschappers interne berekeningen in modellen zoals Claude kunnen traceren. Het onderzoek is gericht op het begrijpen van hoe AI-modellen informatie verwerken en reacties genereren. Onderzoekers kunnen nu 'circuits' in kaart brengen die gekoppeld zijn aan specifieke mogelijkheden, zoals redeneren en vertalen. Deze 'circuit tracing'-methode maakt het mogelijk om interne representaties halverwege de prompt te wijzigen. Het wijzigen van Claude's poëtische planningsstatus verandert bijvoorbeeld zijn rijmkeuzes, wat de interne aanpasbaarheid van het model aantoont. De interne werking van Claude is complexer dan het lijkt, zelfs bij eenvoudige taken. Het model gebruikt parallelle berekeningen voor wiskunde, waarbij het sommen schat terwijl het nauwkeurige cijfers berekent. De interpreteerbaarheidstools van Anthropic zijn cruciaal om ervoor te zorgen dat AI-systemen veilig, voorspelbaar en afgestemd zijn op menselijke waarden.

Heb je een fout of onnauwkeurigheid gevonden?

We zullen je opmerkingen zo snel mogelijk in overweging nemen.