Массачусетский технологический институт (MIT) достиг значительных успехов в области искусственного интеллекта с помощью своей инновационной техники, называемой 'обучение во время тестирования' (TTT). Этот метод был применен к доработанной модели Llama 3 8B, достигнув рекордной точности 61,9% на тесте по абстракции и рассуждению (ARC). Этот результат превосходит предыдущий рекорд в 55%, что является заметным шагом вперед к достижению 'человекообразных' навыков решения проблем в больших языковых моделях (LLMs).
Исследователи MIT выразили свой восторг, заявив: "Наш TTT-пайплайн, в сочетании с существующим методом (BARC), достигает лучших результатов на публичном наборе ARC и показывает результаты, сопоставимые со средним человеком." Бенчмарк ARC-AGI, разработанный Франсуа Шолетом, создателем Keras, направлен на измерение прогресса в направлении общей интеллекции в ИИ.
Бенчмарк включает новые задачи, предназначенные для оценки логических способностей рассуждения LLM, такие как решение визуальных головоломок путем распознавания шаблонов из сетки цветов. Этот уникальный формат тестирования гарантирует, что оценка избегает культурных или языковых предвзятостей.
Создатели бенчмарка ARC-AGI отметили: "Если будет найдена, решение ARC-AGI окажет большее влияние, чем открытие трансформатора. Решение откроет новую ветвь технологий." В то время как модели общего назначения испытывают трудности с бенчмарком ARC-AGI, MindsAI в настоящее время лидирует с результатом 55%, используя технику, которая дорабатывает модель во время тестирования.
Несмотря на впечатляющий результат MIT в 62%, он не квалифицировался для первой позиции в рейтинге, поскольку не обучался на частном наборе данных ARC-AGI и не завершил задачу в рамках требуемого 12-часового лимита. Подход MIT включал использование низкоранговой адаптации (LoRa) и первоначальную доработку на общедоступных данных, что укрепило понимание модели с помощью метода leave-one-out.
TTT был введен во время реальных тестов, что позволило модели производить вариации на основе размера сетки и цвета. Агрегируя предсказания через трансформации, модель улучшила свою точность. Авторы подчеркнули, что этот метод может значительно улучшить будущие LLM.
Хотя остаются опасения по поводу оптимизации моделей ИИ для конкретных бенчмарков, потенциал этих специализированных моделей для обобщения своих способностей к рассуждению с помощью более широкого набора данных является многообещающим. Разработчики ARC-AGI признали ограничения бенчмарка, но подтвердили его роль в измерении прогресса ИИ к искусственному общему интеллекту (AGI).
В заключение, результаты предполагают, что техники во время тестирования могут сыграть ключевую роль в продвижении следующего поколения LLM. Как отметил Питер Уелиндер из OpenAI, "Люди недооценивают, насколько мощным является вычисление во время тестирования." Это подчеркивает важность продолжения инноваций в методах ИИ.