Anthropic, ведущая компания в области безопасности и исследований ИИ, запустила новые инструменты, позволяющие получить представление о логике передовых языковых моделей. Эти инструменты действуют как 'микроскоп' для ИИ, позволяя ученым отслеживать внутренние вычисления в моделях, таких как Claude. Исследование направлено на понимание того, как модели ИИ обрабатывают информацию и генерируют ответы. Теперь исследователи могут отображать 'цепи', связанные с конкретными возможностями, такими как рассуждение и перевод. Этот метод 'трассировки цепей' позволяет изменять внутренние представления в середине запроса. Например, изменение состояния поэтического планирования Claude меняет его выбор рифм, демонстрируя внутреннюю адаптивность модели. Внутренняя работа Claude сложнее, чем кажется, даже в простых задачах. Модель использует параллельные вычисления для математики, оценивая суммы при вычислении точных цифр. Инструменты интерпретируемости Anthropic имеют решающее значение для обеспечения безопасности, предсказуемости и соответствия систем ИИ человеческим ценностям.
'Микроскоп' Anthropic раскрывает логику ИИ Claude
Отредактировано: Veronika Nazarova
Читайте больше новостей по этой теме:
Вы нашли ошибку или неточность?
Мы учтем ваши комментарии как можно скорее.