'Mikroskop' Anthropic ujawnia rozumowanie AI Claude'a

Edited by: Veronika Nazarova

Anthropic, wiodąca firma zajmująca się bezpieczeństwem i badaniami nad sztuczną inteligencją, wprowadziła nowe narzędzia zapewniające wgląd w rozumowanie zaawansowanych modeli językowych. Narzędzia te działają jak „mikroskop” dla sztucznej inteligencji, umożliwiając naukowcom śledzenie wewnętrznych obliczeń w modelach takich jak Claude. Badania mają na celu zrozumienie, w jaki sposób modele AI przetwarzają informacje i generują odpowiedzi. Naukowcy mogą teraz mapować „obwody” powiązane z określonymi zdolnościami, takimi jak rozumowanie i tłumaczenie. Ta metoda „śledzenia obwodów” umożliwia zmianę wewnętrznych reprezentacji w trakcie podpowiedzi. Na przykład modyfikacja stanu planowania poetyckiego Claude'a zmienia jego wybory rymów, co demonstruje wewnętrzną zdolność adaptacji modelu. Wewnętrzne działanie Claude'a jest bardziej złożone, niż się wydaje, nawet w prostych zadaniach. Model wykorzystuje obliczenia równoległe do matematyki, szacując sumy podczas obliczania dokładnych cyfr. Narzędzia interpretacyjne Anthropic są kluczowe dla zapewnienia, że systemy AI są bezpieczne, przewidywalne i zgodne z wartościami ludzkimi.

Czy znalazłeś błąd lub niedokładność?

Rozważymy Twoje uwagi tak szybko, jak to możliwe.