Neuer Benchmark zeigt Einschränkungen der KI in der historischen Forschung

Bearbeitet von: Veronika Nazarova

Ein Forscherteam hat einen neuen Benchmark, Hist-LLM, entwickelt, um die Leistung von drei führenden großen Sprachmodellen (LLMs) — OpenAIs GPT-4, Metas Llama und Googles Gemini — bei historischen Fragen zu bewerten. Dieser Benchmark bewertet die Genauigkeit der Antworten anhand der Seshat Global History Databank, einer umfassenden Datenbank historischer Kenntnisse.

Die Ergebnisse, die auf der KI-Konferenz NeurIPS präsentiert wurden, zeigen, dass selbst das leistungsstärkste Modell, GPT-4 Turbo, nur etwa 46 % Genauigkeit erreichte, was nur geringfügig besser als Zufallsraten ist. Maria del Rio-Chanona, eine Mitautorin und Professorin an der University College London, bemerkte: 'LLMs, obwohl beeindruckend, fehlen noch die tiefere Verständnis für fortgeschrittene Geschichte.'

Beispiele für Ungenauigkeiten sind, dass GPT-4 Turbo fälschlicherweise angab, dass Schuppenpanzer in einem bestimmten Zeitraum im alten Ägypten existierten, obwohl diese erst 1.500 Jahre später auftauchten. Die Forscher schlagen vor, dass LLMs Schwierigkeiten mit nuancierten historischen Anfragen haben, da sie sich auf prominente historische Daten stützen, was zu falschen Extrapolationen führt.

Die Studie hob auch eine Leistungsdifferenz hervor, wobei die Modelle von OpenAI und Llama bei Fragen zu Regionen wie Subsahara-Afrika schlechter abschnitten, was auf mögliche Verzerrungen in ihren Trainingsdaten hinweist. Peter Turchin, der Leiter der Studie, betonte, dass LLMs noch kein Ersatz für menschliche Expertise in bestimmten Bereichen sind.

Trotz dieser Einschränkungen sind die Forscher optimistisch hinsichtlich des Potenzials von LLMs, Historikern zu helfen. Sie verfeinern ihren Benchmark, um vielfältigere Daten und komplexere Fragen einzubeziehen, und stellen fest: 'Obwohl unsere Ergebnisse Bereiche zur Verbesserung aufzeigen, verdeutlichen sie auch das Potenzial dieser Modelle zur Unterstützung der historischen Forschung.'

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.