Alibaba представляет Qwen Robot Suite: первая серия фундаментальных моделей для воплощённого ИИ и реальных роботов

18:31, 16 июня

Лаборатория Tongyi Lab (подразделение Alibaba) выпустила Qwen Robot Suite — первую серию специализированных моделей, созданных специально для работы в физическом мире. Это не просто очередное улучшение мультимодальных моделей, а системный переход от чат-ботов, которые понимают мир, к физическим агентам, способным воспринимать обстановку, планировать действия и выполнять их в реальном времени.

Релиз включает три фундаментальные модели:

Qwen-RobotNav — навигация и перемещение в физическом пространстве;
Qwen-RobotManip — манипуляция объектами и взаимодействие с окружением;
Qwen-RobotWorld — предсказание динамики сцен и будущего состояния мира.

Все модели построены на базе семейства Qwen (в первую очередь визуально-языковых моделей Qwen3-VL и Qwen3.5), обучены исключительно на открытых данных и уже проходят пилотные внедрения у клиентов Alibaba Cloud.

Почему это важно: разрыв между пониманием и действием

Модели Qwen уже давно хорошо понимают физический мир: распознают объекты, пространственные отношения, инструкции и причинно-следственные связи. Однако между пониманием и реальным действием оставался принципиальный разрыв — несоответствие между языково-визуальными представлениями и командами управления роботом.

Qwen Robot Suite решает именно эту проблему, создавая специализированные «мосты» между восприятием и действием в трёх ключевых областях: мобильность, манипуляция и предсказание мира.

Qwen-RobotNav — навигация и мобильность

Модель объединяет сразу пять задач навигации в едином фреймворке:

следование естественным языковым инструкциям;
навигация к заданной точке или объекту;
отслеживание движущихся целей;
автономное вождение;
ответы на вопросы в физической среде (Embodied Question Answering).

Она использует управляемое кодирование наблюдений и специальный интерфейс инструментов, который позволяет вышестоящему планировщику (например, Qwen3.7) динамически переключать режимы работы и управлять контекстом.

Результаты: 76,5% доли успешных прохождений на VLN-CE RxR, 75,6% на HM3Dv2 (навигация к объекту, только RGB-изображения), 91,4 PDMS на NAVSIM (замкнутый цикл автономного вождения). Модель уже успешно протестирована на реальном четвероногом роботе Unitree Go2 с одной низкоразрешающей камерой.

Qwen-RobotManip — манипуляция и взаимодействие

Это наиболее зрелая и сильная модель всего набора. Она построена на базе Qwen3.5-4B с головой действий на основе flow-matching DiT и вводит унифицированное 80-мерное пространство состояний и действий с дельта-позициями в системе координат камеры. Такой подход позволяет эффективно обучаться на данных от разных типов роботов (однорукие, двурукие, руки с высокой ловкостью, мобильные платформы) без конфликтов в данных.

Ключевой момент — масштаб и качество обучения: более 38 100 часов открытых данных, включая реальные записи работы роботов, эгоцентрическое видео людей и синтетические данные, сгенерированные через конвейер преобразования «человек — робот».

Результаты на бенчмарках:

91,4% на LIBERO-Plus (на 7 процентных пунктов выше предыдущего лучшего результата);
1-е место в общем зачёте RoboChallenge Table30 v1 (45% успешных выполнений, на 20% опережает третье место);
сильные показатели на RoboTwin, RoboCasa, EBench и других тестах, особенно в сценариях вне распределения обучения и при переносе навыков между разными типами роботов без дополнительного обучения.

Модель демонстрирует emergent-свойства: устойчивость к внешним возмущениям, восстановление после ошибок, выполнение открытых инструкций и перенос навыков между различными роботами.

Qwen-RobotWorld — модель мира и предсказание будущего

Это языково-обусловленная видео-модель мира, которая по текущему наблюдению и текстовой инструкции генерирует физически правдоподобное будущее состояние сцены. Модель обучена на 8,6 млн пар «видео — текст» (более 200 млн кадров) и хорошо понимает физику (законы движения, сохранение массы, поведение жидкостей и т.д.).

Она занимает первые места на EWMBench, DreamGen Bench, WorldModelBench (среди открытых моделей) и PBBench. Особенно ценна возможность точного языкового управления и согласованной генерации с разных точек обзора.

Qwen-RobotClaw — слой интеграции

Важный дополнительный компонент — Qwen-RobotClaw, внутренний инструментарий для робототехнических агентов. Он позволяет обычным визуально-языковым агентам Qwen вызывать модели Robot Suite как инструменты физического мира, управляя контекстом и памятью при выполнении длительных задач.

Именно этот слой превращает три фундаментальные модели в целостную систему для агентов, действующих в физическом мире.

Модели уже находятся в пилотном использовании у избранных корпоративных клиентов Alibaba Cloud в робототехническом секторе.

Опубликованы репозитории на GitHub (QwenLM/Qwen-RobotNav, Qwen-RobotManip и другие) и технические отчёты. Модели доступны через экосистему Qwen, включая платформу Hugging Face. Полные веса и подробные инструкции по интеграции ожидаются в ближайшее время.

Qwen