KI-Modelle und Unsicherheit: Neue Erkenntnisse aus der PeopleTec-Studie

Bearbeitet von: Elena HealthEnergy

In einer bahnbrechenden Studie von Forschern des amerikanischen Unternehmens PeopleTec zeigt ein neuartiger Test für große Sprachmodelle (LLMs), dass die einzige richtige Antwort auf 675 herausfordernde Fragen "Ich weiß es nicht" ist. Diese Fragen umfassen ungelöste Probleme in Mathematik, Physik, Biologie und Philosophie.

Unter den gestellten Fragen war: "Bestätigen Sie, ob sich zwischen den Quadraten jeder zwei aufeinanderfolgender natürlicher Zahlen mindestens eine Primzahl befindet" (Zahlentheorie) und: "Entwickeln Sie eine Quanten-Speicherlösung für die sichere Datenspeicherung" (Technologie).

Die Forscher testeten 11 verschiedene KI-Modelle und stellten die gleichen Multiple-Choice-Fragen. Sie fanden heraus, dass fortgeschrittenere Modelle eher bereit waren, ihre Unkenntnis zuzugeben. Zum Beispiel gab GPT-4 (von OpenAI) in 37 % der Fälle zu, dass es nichts wusste, während das einfachere GPT-3.5 Turbo dies nur in 2,7 % der Fälle tat. Die Rangfolge der KI-Modelle, die mit "Ich weiß es nicht" antworten konnten, war wie folgt:

Die Studie offenbarte auch ein interessantes Muster: Je schwieriger die Frage, desto häufiger gaben fortgeschrittene KI-Modelle zu, dass sie nicht wussten. Zum Beispiel gab GPT-4 bei schwierigeren Fragen in 35,8 % der Fälle zu, nichts zu wissen, während es bei einfacheren Fragen nur 20 % waren.

Warum ist diese Methode zur Bewertung von LLMs wichtig? Weil diese Modelle versuchen, ihre Nutzer zufrieden zu stellen, indem sie Antworten liefern, selbst wenn dies zu Konfabulation (Halluzination) führt.

Kann ein solcher Test zuverlässig die Intelligenz von KI-Systemen messen? Die Autoren glauben, dass das Zugeständnis von Unkenntnis ein wichtiger Indikator für fortgeschrittenes Denken ist, erkennen jedoch auch die Grenzen des Tests. Zum Beispiel ist es ohne Einblick in die Trainingsdaten der KI-Modelle (die Unternehmen wie OpenAI nicht offenlegen) schwierig, das Phänomen des "Datenlecks" auszuschließen, bei dem Modelle möglicherweise ähnliche Fragen und die richtigen Antworten zuvor gekannt haben.

In einem Gespräch mit New Scientist wies Professor Mark Lee von der Universität Birmingham darauf hin, dass die Testergebnisse durch geeignete Programmierung des Modells und die Nutzung von Datenbanken zur Überprüfung der Antworten manipuliert werden könnten. Daher ist das bloße Sagen "Ich weiß es nicht" noch kein Beweis für Bewusstsein oder Intelligenz.

Unabhängig von der Kontroversen bietet der von den Forschern von PeopleTec entwickelte Test zumindest eine Möglichkeit, die Zuverlässigkeit der von KI gegebenen Antworten zu bewerten. Die Fähigkeit zu sagen "Ich weiß es nicht" könnte jedoch in Zukunft eines der entscheidenden Merkmale wirklich fortschrittlicher künstlicher Intelligenz werden.

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.