Le MIT utilise l'« Entraînement au moment du test » pour atteindre une précision record en IA

Le Massachusetts Institute of Technology (MIT) a réalisé des avancées significatives en intelligence artificielle avec sa technique innovante appelée 'entraînement au moment du test' (TTT). Cette méthode a été appliquée à un modèle Llama 3 8B affiné, atteignant une précision record de 61,9 % sur le benchmark d'abstraction et de raisonnement (ARC). Ce score dépasse l'ancienne meilleure performance de 55 %, marquant un progrès notable vers des capacités de résolution de problèmes 'humaines' dans les grands modèles de langage (LLMs).

Les chercheurs du MIT ont exprimé leur enthousiasme, déclarant : "Notre pipeline TTT, combiné à une méthode existante (BARC), atteint des résultats à la pointe de la technologie sur l'ensemble public d'ARC et fonctionne de manière comparable à un humain moyen." Le benchmark ARC-AGI, développé par François Chollet, créateur de Keras, vise à mesurer les progrès vers l'intelligence générale en IA.

Le benchmark comprend des problèmes nouveaux conçus pour évaluer les capacités de raisonnement logique d'un LLM, tels que la résolution de puzzles visuels en reconnaissant des motifs à partir d'une grille de couleurs. Ce format de test unique garantit que l'évaluation évite les biais culturels ou linguistiques.

Les créateurs du benchmark ARC-AGI ont noté : "Si trouvé, une solution à l'ARC-AGI serait plus impactante que la découverte du transformateur. La solution ouvrirait une nouvelle branche de la technologie." Alors que les modèles d'usage général ont du mal avec le benchmark ARC-AGI, MindsAI est actuellement en tête avec un score de 55 % en utilisant une technique qui ajuste le modèle pendant les tests.

Malgré le score impressionnant de 62 % du MIT, il ne s'est pas qualifié pour la première place du classement en raison de ne pas avoir été entraîné sur le jeu de données privé ARC-AGI et de ne pas avoir terminé la tâche dans la limite de temps de 12 heures requise. L'approche du MIT a impliqué l'utilisation d'une adaptation à faible rang (LoRa) et un ajustement initial sur des données disponibles publiquement, renforçant la compréhension du modèle grâce à une méthode de laisser-un-exemple-de-côté.

Le TTT a été introduit lors de cas de test réels, permettant au modèle de produire des variations basées sur la taille de la grille et la couleur. En agrégeant les prédictions à travers les transformations, le modèle a amélioré sa précision. Les auteurs ont souligné que cette méthode pourrait considérablement améliorer les futurs LLMs.

Bien que des préoccupations subsistent concernant l'optimisation des modèles d'IA pour des benchmarks spécifiques, le potentiel de ces modèles spécialisés à généraliser leurs capacités de raisonnement avec une exposition à des données plus variées est prometteur. Les développeurs de l'ARC-AGI ont reconnu les limites du benchmark mais ont affirmé son rôle dans la mesure des progrès de l'IA vers l'intelligence générale artificielle (AGI).

En conclusion, les résultats suggèrent que les techniques au moment du test pourraient être cruciales pour faire avancer la prochaine génération de LLMs. Comme l'a déclaré Peter Welinder d'OpenAI, "Les gens sous-estiment la puissance de l'informatique au moment du test." Cela souligne l'importance de l'innovation continue dans les méthodologies d'IA.

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.