Une équipe de chercheurs a développé un nouveau benchmark, Hist-LLM, pour évaluer la performance de trois modèles de langage de grande taille (LLMs) — GPT-4 d'OpenAI, Llama de Meta et Gemini de Google — sur des questions historiques. Ce benchmark évalue l'exactitude des réponses par rapport à la base de données Seshat Global History Databank, une base de données complète de connaissances historiques.
Les résultats, présentés lors de la conférence AI NeurIPS, indiquent que même le meilleur modèle, GPT-4 Turbo, n'a atteint qu'environ 46 % de précision, ce qui est à peine mieux qu'un tirage au sort. Maria del Rio-Chanona, co-auteur et professeur associé à l'University College London, a déclaré : 'Les LLMs, bien que remarquables, manquent encore de la profondeur de compréhension requise pour l'histoire avancée.'
Des exemples d'inexactitudes incluent le fait que GPT-4 Turbo a déclaré à tort que l'armure à échelle existait dans l'Égypte ancienne à une période spécifique, alors qu'elle n'est apparue que 1 500 ans plus tard. Les chercheurs suggèrent que les LLMs ont du mal avec les enquêtes historiques nuancées en raison de leur dépendance à des données historiques plus proéminentes, ce qui conduit à des extrapolations incorrectes.
La recherche a également mis en évidence un écart de performance, les modèles d'OpenAI et de Llama sous-performant sur des questions liées à des régions comme l'Afrique subsaharienne, ce qui indique des biais potentiels dans leurs données d'entraînement. Peter Turchin, le responsable de l'étude, a souligné que les LLMs ne sont pas encore un substitut à l'expertise humaine dans certains domaines.
Malgré ces limitations, les chercheurs restent optimistes quant au potentiel des LLMs pour aider les historiens. Ils affinent leur benchmark pour inclure des données plus diversifiées et des questions complexes, notant : 'Bien que nos résultats mettent en évidence des domaines à améliorer, ils soulignent également le potentiel de ces modèles pour aider à la recherche historique.'