Anthropic's 'Microscoop' Onthult het Redeneervermogen van AI Claude

05:42, 19 april

Bewerkt door: Veronika Nazarova

Anthropic, een toonaangevend bedrijf op het gebied van AI-veiligheid en -onderzoek, heeft nieuwe tools gelanceerd die inzicht bieden in het redeneervermogen van geavanceerde taalmodellen. Deze tools fungeren als een 'microscoop' voor AI, waardoor wetenschappers interne berekeningen in modellen zoals Claude kunnen traceren. Het onderzoek is gericht op het begrijpen van hoe AI-modellen informatie verwerken en reacties genereren. Onderzoekers kunnen nu 'circuits' in kaart brengen die gekoppeld zijn aan specifieke mogelijkheden, zoals redeneren en vertalen. Deze 'circuit tracing'-methode maakt het mogelijk om interne representaties halverwege de prompt te wijzigen. Het wijzigen van Claude's poëtische planningsstatus verandert bijvoorbeeld zijn rijmkeuzes, wat de interne aanpasbaarheid van het model aantoont. De interne werking van Claude is complexer dan het lijkt, zelfs bij eenvoudige taken. Het model gebruikt parallelle berekeningen voor wiskunde, waarbij het sommen schat terwijl het nauwkeurige cijfers berekent. De interpreteerbaarheidstools van Anthropic zijn cruciaal om ervoor te zorgen dat AI-systemen veilig, voorspelbaar en afgestemd zijn op menselijke waarden.

Lees meer nieuws over dit onderwerp:

16 mei

Uae And Us Agree On Ai Acceleration Partnership

15 mei

Ai-generated Art Emerges as New Surrealist Movement in France

15 mei

Perplexity ai partners with paypal for in-chat purchases

Heb je een fout of onnauwkeurigheid gevonden?

We zullen je opmerkingen zo snel mogelijk in overweging nemen.