A Anthropic, uma empresa líder em segurança e pesquisa de IA, lançou novas ferramentas que fornecem insights sobre o raciocínio de modelos de linguagem avançados. Essas ferramentas atuam como um 'microscópio' para a IA, permitindo que os cientistas rastreiem os cálculos internos em modelos como Claude. A pesquisa visa entender como os modelos de IA processam informações e geram respostas. Os pesquisadores agora podem mapear 'circuitos' ligados a capacidades específicas, como raciocínio e tradução. Este método de 'rastreamento de circuito' permite a alteração de representações internas no meio do prompt. Por exemplo, modificar o estado de planejamento poético de Claude muda suas escolhas de rima, demonstrando a adaptabilidade interna do modelo. O funcionamento interno de Claude é mais complexo do que parece, mesmo em tarefas simples. O modelo usa cálculos paralelos para matemática, estimando somas enquanto calcula dígitos precisos. As ferramentas de interpretabilidade da Anthropic são cruciais para garantir que os sistemas de IA sejam seguros, previsíveis e alinhados com os valores humanos.
'Microscópio' da Anthropic Revela o Raciocínio da IA Claude
Edited by: Veronika Nazarova
Encontrou um erro ou imprecisão?
Vamos considerar seus comentários assim que possível.