Группа исследователей разработала новый бенчмарк Hist-LLM для оценки производительности трех ведущих моделей больших языков (LLMs) — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — по историческим вопросам. Этот бенчмарк оценивает точность ответов по данным Seshat Global History Databank, обширной базе исторических знаний.
Результаты, представленные на конференции NeurIPS, показывают, что даже лучшая модель, GPT-4 Turbo, достигла лишь около 46% точности, что лишь немного лучше, чем случайное угадывание. Мария дель Рио-Чанона, соавтор и доцент Университетского колледжа Лондона, отметила: 'LLMs, хотя и впечатляющие, все еще не обладают глубиной понимания, необходимой для углубленного изучения истории.'
Примеры неточностей включают неправильный ответ GPT-4 Turbo о том, что чешуйчатые доспехи существовали в Древнем Египте в определенный период, хотя на самом деле они появилась на 1,500 лет позже. Исследователи предполагают, что LLMs сталкиваются с трудностями при ответах на сложные исторические вопросы из-за своей зависимости от более заметных исторических данных, что приводит к неправильным экстраполяциям.
Исследование также выявило разрыв в производительности: модели OpenAI и Llama показывают худшие результаты при ответах на вопросы, связанные с регионами, такими как страны Африки к югу от Сахары, что указывает на возможные предвзятости в их обучающих данных. Питер Турчин, руководитель исследования, подчеркнул, что LLM (модели большого языка) пока не могут заменить человеческий опыт в определённых областях.
Несмотря на эти ограничения, исследователи сохраняют оптимизм относительно потенциала LLMs в помощи историкам. Они дорабатывают свой бенчмарк, чтобы включить более разнообразные данные и сложные вопросы, отмечая: 'Хотя наши результаты подчеркивают области, требующие улучшения, они также подчеркивают потенциал этих моделей для помощи в исторических исследованиях.'