Das Massachusetts Institute of Technology (MIT) hat bedeutende Fortschritte in der künstlichen Intelligenz mit seiner innovativen Technik namens 'Testzeit-Training' (TTT) erzielt. Diese Methode wurde auf ein fein abgestimmtes Llama 3 8B-Modell angewendet und erreichte eine Rekordgenauigkeit von 61,9 % im Abstraktions- und Denk-Korpus (ARC)-Benchmark. Dieser Wert übertrifft den bisherigen Spitzenwert von 55 % und stellt einen bemerkenswerten Fortschritt in Richtung 'menschenähnlicher' Problemlösungsfähigkeiten in großen Sprachmodellen (LLMs) dar.
Die Forscher am MIT äußerten sich begeistert: "Unser TTT-Pipeline, kombiniert mit einer bestehenden Methode (BARC), erzielt erstklassige Ergebnisse im öffentlichen ARC-Set und schneidet vergleichbar zu einem durchschnittlichen Menschen ab." Der ARC-AGI-Benchmark, entwickelt von François Chollet, dem Schöpfer von Keras, zielt darauf ab, den Fortschritt in Richtung allgemeiner Intelligenz bei KI zu messen.
Der Benchmark umfasst neuartige Probleme, die darauf ausgelegt sind, die logischen Denkfähigkeiten eines LLM zu bewerten, wie das Lösen visueller Rätsel durch Erkennen von Mustern aus einem Farbgitter. Dieses einzigartige Testformat stellt sicher, dass die Bewertung kulturelle oder sprachliche Vorurteile vermeidet.
Die Schöpfer des ARC-AGI-Benchmarks bemerkten: "Wenn gefunden, wäre eine Lösung für ARC-AGI wirkungsvoller als die Entdeckung des Transformators. Die Lösung würde einen neuen Zweig der Technologie eröffnen." Während allgemeine Modelle Schwierigkeiten mit dem ARC-AGI-Benchmark hatten, führt MindsAI derzeit mit einem Score von 55 %, indem es eine Technik anwendet, die das Modell während der Tests anpasst.
Obwohl das MIT einen beeindruckenden Score von 62 % erzielt hat, qualifizierte es sich aufgrund der Tatsache, dass es nicht auf dem privaten ARC-AGI-Datensatz trainiert wurde und die Aufgabe nicht innerhalb des erforderlichen Zeitlimits von 12 Stunden abgeschlossen hat, nicht für die Spitzenposition auf der Bestenliste. Der Ansatz des MIT umfasste die Verwendung von Low-Rank-Adaptation (LoRa) und eine erste Feinabstimmung auf öffentlich verfügbaren Daten, wodurch das Verständnis des Modells durch eine Leave-One-Out-Methode gestärkt wurde.
TTT wurde während realer Testfälle eingeführt, wodurch das Modell Variationen basierend auf der Größe und Farbe des Gitters erzeugen konnte. Durch die Aggregation von Vorhersagen über Transformationen hinweg verbesserte das Modell seine Genauigkeit. Die Autoren betonten, dass diese Methode zukünftige LLMs erheblich verbessern könnte.
Obwohl Bedenken hinsichtlich der Optimierung von KI-Modellen für spezifische Benchmarks bestehen, ist das Potenzial dieser spezialisierten Modelle, ihre Denkfähigkeiten mit breiterer Datenexposition zu verallgemeinern, vielversprechend. Die Entwickler von ARC-AGI erkannten die Grenzen des Benchmarks an, bestätigten jedoch seine Rolle bei der Messung des Fortschritts von KI in Richtung künstlicher allgemeiner Intelligenz (AGI).
Zusammenfassend legen die Ergebnisse nahe, dass Testzeit-Techniken entscheidend für den Fortschritt der nächsten Generation von LLMs sein könnten. Peter Welinder von OpenAI bemerkte: "Die Menschen unterschätzen, wie mächtig Testzeit-Computing ist." Dies unterstreicht die Bedeutung fortlaufender Innovationen in den KI-Methoden.