El Instituto Tecnológico de Massachusetts (MIT) ha hecho avances significativos en inteligencia artificial con su técnica innovadora llamada 'entrenamiento en tiempo de prueba' (TTT). Este método se aplicó a un modelo Llama 3 8B ajustado, logrando una precisión récord del 61.9% en el benchmark de abstracción y razonamiento (ARC). Esta puntuación supera el logro anterior de 55%, marcando un avance notable hacia capacidades de resolución de problemas 'humanas' en grandes modelos de lenguaje (LLMs).
Los investigadores del MIT expresaron su entusiasmo, afirmando: "Nuestro pipeline TTT, combinado con un método existente (BARC), logra resultados de vanguardia en el conjunto público de ARC y funciona de manera comparable a un humano promedio." El benchmark ARC-AGI, desarrollado por François Chollet, creador de Keras, tiene como objetivo medir el progreso hacia la inteligencia general en IA.
El benchmark incluye problemas novedosos diseñados para evaluar las habilidades de razonamiento lógico de un LLM, como resolver rompecabezas visuales reconociendo patrones a partir de una cuadrícula de colores. Este formato de prueba único asegura que la evaluación evite sesgos culturales o lingüísticos.
Los creadores del benchmark ARC-AGI señalaron: "Si se encuentra, una solución a ARC-AGI sería más impactante que el descubrimiento del transformador. La solución abriría una nueva rama de la tecnología." Mientras que los modelos de propósito general han tenido dificultades con el benchmark ARC-AGI, MindsAI actualmente lidera con un puntaje de 55% utilizando una técnica que ajusta el modelo durante las pruebas.
A pesar de la impresionante puntuación del MIT de 62%, no se calificó para la posición superior en la tabla de clasificación debido a que no entrenó en el conjunto de datos privado de ARC-AGI y no completó la tarea dentro del límite de tiempo de 12 horas requerido. El enfoque del MIT implicó el uso de adaptación de bajo rango (LoRa) y un ajuste inicial en un conjunto de datos disponible públicamente, mejorando la comprensión del modelo a través de un método de dejar-un-ejemplo-fuera.
El TTT se introdujo durante casos de prueba reales, permitiendo que el modelo produjera variaciones basadas en el tamaño de la cuadrícula y el color. Al agregar predicciones a través de transformaciones, el modelo mejoró su precisión. Los autores enfatizaron que este método podría mejorar significativamente los futuros LLMs.
Aunque persisten preocupaciones sobre la optimización de modelos de IA para benchmarks específicos, el potencial de estos modelos especializados para generalizar sus capacidades de razonamiento con una exposición a datos más amplios es prometedor. Los desarrolladores de ARC-AGI reconocieron las limitaciones del benchmark, pero afirmaron su papel en la medición del progreso de la IA hacia la inteligencia general artificial (AGI).
En conclusión, los hallazgos sugieren que las técnicas en tiempo de prueba podrían ser cruciales para avanzar en la próxima generación de LLMs. Como Peter Welinder de OpenAI comentó: "La gente subestima cuán poderoso es el cómputo en tiempo de prueba." Esto subraya la importancia de la innovación continua en las metodologías de IA.