'Мікроскоп' Anthropic розкриває міркування AI Claude

Edited by: Veronika Nazarova

Anthropic, провідна компанія з безпеки та досліджень штучного інтелекту, запустила нові інструменти, що забезпечують розуміння міркувань передових мовних моделей. Ці інструменти діють як «мікроскоп» для штучного інтелекту, дозволяючи вченим відстежувати внутрішні обчислення в моделях, таких як Claude. Дослідження спрямоване на розуміння того, як моделі штучного інтелекту обробляють інформацію та генерують відповіді. Дослідники тепер можуть відображати «схеми», пов’язані з певними можливостями, такими як міркування та переклад. Цей метод «відстеження схем» дозволяє змінювати внутрішні представлення в середині підказки. Наприклад, зміна стану поетичного планування Claude змінює його вибір рими, що демонструє внутрішню адаптивність моделі. Внутрішня робота Claude складніша, ніж здається, навіть у простих завданнях. Модель використовує паралельні обчислення для математики, оцінюючи суми під час обчислення точних цифр. Інструменти інтерпретації Anthropic мають вирішальне значення для забезпечення безпеки, передбачуваності та узгодженості систем штучного інтелекту з людськими цінностями.

Знайшли помилку чи неточність?

Ми розглянемо ваші коментарі якомога швидше.