Новый бенчмарк показывает ограничения ИИ в исторических исследованиях

15:15, 19 января

Отредактировано: Veronika Nazarova

Группа исследователей разработала новый бенчмарк Hist-LLM для оценки производительности трех ведущих моделей больших языков (LLMs) — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — по историческим вопросам. Этот бенчмарк оценивает точность ответов по данным Seshat Global History Databank, обширной базе исторических знаний.

Результаты, представленные на конференции NeurIPS, показывают, что даже лучшая модель, GPT-4 Turbo, достигла лишь около 46% точности, что лишь немного лучше, чем случайное угадывание. Мария дель Рио-Чанона, соавтор и доцент Университетского колледжа Лондона, отметила: 'LLMs, хотя и впечатляющие, все еще не обладают глубиной понимания, необходимой для углубленного изучения истории.'

Примеры неточностей включают неправильный ответ GPT-4 Turbo о том, что чешуйчатые доспехи существовали в Древнем Египте в определенный период, хотя на самом деле они появилась на 1,500 лет позже. Исследователи предполагают, что LLMs сталкиваются с трудностями при ответах на сложные исторические вопросы из-за своей зависимости от более заметных исторических данных, что приводит к неправильным экстраполяциям.

Исследование также выявило разрыв в производительности: модели OpenAI и Llama показывают худшие результаты при ответах на вопросы, связанные с регионами, такими как страны Африки к югу от Сахары, что указывает на возможные предвзятости в их обучающих данных. Питер Турчин, руководитель исследования, подчеркнул, что LLM (модели большого языка) пока не могут заменить человеческий опыт в определённых областях.

Несмотря на эти ограничения, исследователи сохраняют оптимизм относительно потенциала LLMs в помощи историкам. Они дорабатывают свой бенчмарк, чтобы включить более разнообразные данные и сложные вопросы, отмечая: 'Хотя наши результаты подчеркивают области, требующие улучшения, они также подчеркивают потенциал этих моделей для помощи в исторических исследованиях.'

Читайте больше новостей по этой теме:

08 мая

AI Progress Slows Amidst Industry Concerns Over Limitations of Large Language Models

28 сентября

AI Aids Discovery of 303 New Nazca Geoglyphs in Peru

06 мая

AI Hiring Bias Persists in 2025: Study Reveals Gender Disparities and Mitigation Strategies

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.