Un equipo de investigadores ha desarrollado un nuevo benchmark, Hist-LLM, para evaluar el rendimiento de tres modelos de lenguaje de gran tamaño (LLMs) — GPT-4 de OpenAI, Llama de Meta y Gemini de Google — en preguntas históricas. Este benchmark evalúa la precisión de las respuestas en comparación con el Seshat Global History Databank, una base de datos completa de conocimiento histórico.
Los hallazgos, presentados en la conferencia de IA NeurIPS, indican que incluso el modelo con mejor rendimiento, GPT-4 Turbo, logró solo alrededor del 46% de precisión, lo que es apenas mejor que adivinar. Maria del Rio-Chanona, coautora y profesora asociada en University College London, comentó: 'Los LLMs, aunque impresionantes, aún carecen de la profundidad de comprensión necesaria para la historia avanzada.'
Ejemplos de inexactitudes incluyen que GPT-4 Turbo declaró incorrectamente que la armadura de escamas existía en el antiguo Egipto durante un periodo específico, a pesar de que esta apareció 1,500 años después. Los investigadores sugieren que los LLMs luchan con consultas históricas matizadas debido a su dependencia de datos históricos más prominentes, lo que lleva a extrapolaciones incorrectas.
El estudio también destacó una brecha de rendimiento, con los modelos de OpenAI y Llama desempeñándose peor en preguntas relacionadas con regiones como el África subsahariana, lo que indica posibles sesgos en sus datos de entrenamiento. Peter Turchin, el líder del estudio, enfatizó que los LLMs aún no son un sustituto de la experiencia humana en ciertos dominios.
A pesar de estas limitaciones, los investigadores se mantienen optimistas sobre el potencial de los LLMs para ayudar a los historiadores. Están refinando su benchmark para incluir datos más diversos y preguntas complejas, señalando: 'Aunque nuestros resultados destacan áreas de mejora, también subrayan el potencial de estos modelos para ayudar en la investigación histórica.'