Il 'Microscopio' di Anthropic Rivela il Ragionamento dell'IA Claude

Edited by: Veronika Nazarova

Anthropic, un'azienda leader nella sicurezza e nella ricerca sull'IA, ha lanciato nuovi strumenti che forniscono informazioni sul ragionamento dei modelli linguistici avanzati. Questi strumenti fungono da 'microscopio' per l'IA, consentendo agli scienziati di tracciare i calcoli interni all'interno di modelli come Claude. La ricerca mira a comprendere come i modelli di IA elaborano le informazioni e generano risposte. I ricercatori possono ora mappare i 'circuiti' collegati a capacità specifiche come il ragionamento e la traduzione. Questo metodo di 'tracciamento dei circuiti' consente l'alterazione delle rappresentazioni interne a metà prompt. Ad esempio, la modifica dello stato di pianificazione poetica di Claude cambia le sue scelte di rima, dimostrando l'adattabilità interna del modello. Il funzionamento interno di Claude è più complesso di quanto sembri, anche in compiti semplici. Il modello utilizza calcoli paralleli per la matematica, stimando le somme mentre calcola cifre precise. Gli strumenti di interpretabilità di Anthropic sono fondamentali per garantire che i sistemi di IA siano sicuri, prevedibili e allineati ai valori umani.

Hai trovato un errore o un'inaccuratezza?

Esamineremo il tuo commento il prima possibile.