GPT-4.5 достигает человеческого уровня производительности в тесте Тьюринга, обманув 73% участников

Отредактировано: gaya ❤️ one

Недавнее исследование показывает, что модель GPT-4.5 от OpenAI продемонстрировала производительность на уровне человека в трехстороннем тесте Тьюринга. Исследование, проведенное Калифорнийским университетом в Сан-Диего, показало, что GPT-4.5 идентифицировался как человек в 73% случаев, когда ему предлагалось принять определенную личность. Это значительно превышает базовый показатель в 50%, что говорит о том, что участники часто принимали ИИ за человека. В исследовании приняли участие около 300 человек, которые участвовали в текстовых беседах как с человеком, так и с моделью ИИ. Задача опрашивающих состояла в том, чтобы идентифицировать участника-человека. Модели ИИ оценивались в двух условиях: с минимальной инструкцией и с расширенной подсказкой о личности, которая направляла ИИ на принятие определенного человеческого поведения. В исследовании также оценивалась модель Llama 3.1-405B от Meta, модель GPT-4o от OpenAI и ранний чат-бот, известный как ELIZA. Результаты показали, что GPT-4.5 при использовании подсказки о личности достиг показателя успеха в 73%. Llama 3.1-405B с подсказкой о личности достиг показателя успеха около 56%, тогда как GPT-4o в условиях отсутствия личности достиг показателя успеха только в 21%. Это говорит о том, что подсказка о личности значительно улучшила способность ИИ имитировать человеческий разговор. Исследование подчеркивает достижения в способности ИИ имитировать человеческое взаимодействие, и поднимает вопросы о последствиях такой технологии.

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.