Лаборатория Tongyi Lab (подразделение Alibaba) выпустила Qwen Robot Suite — первую серию специализированных моделей, созданных специально для работы в физическом мире. Это не просто очередное улучшение мультимодальных моделей, а системный переход от чат-ботов, которые понимают мир, к физическим агентам, способным воспринимать обстановку, планировать действия и выполнять их в реальном времени.
Релиз включает три фундаментальные модели:
- Qwen-RobotNav — навигация и перемещение в физическом пространстве;
- Qwen-RobotManip — манипуляция объектами и взаимодействие с окружением;
- Qwen-RobotWorld — предсказание динамики сцен и будущего состояния мира.
Все модели построены на базе семейства Qwen (в первую очередь визуально-языковых моделей Qwen3-VL и Qwen3.5), обучены исключительно на открытых данных и уже проходят пилотные внедрения у клиентов Alibaba Cloud.
Почему это важно: разрыв между пониманием и действием
Модели Qwen уже давно хорошо понимают физический мир: распознают объекты, пространственные отношения, инструкции и причинно-следственные связи. Однако между пониманием и реальным действием оставался принципиальный разрыв — несоответствие между языково-визуальными представлениями и командами управления роботом.
Qwen Robot Suite решает именно эту проблему, создавая специализированные «мосты» между восприятием и действием в трёх ключевых областях: мобильность, манипуляция и предсказание мира.
Qwen-RobotNav — навигация и мобильность
Модель объединяет сразу пять задач навигации в едином фреймворке:
- следование естественным языковым инструкциям;
- навигация к заданной точке или объекту;
- отслеживание движущихся целей;
- автономное вождение;
- ответы на вопросы в физической среде (Embodied Question Answering).
Она использует управляемое кодирование наблюдений и специальный интерфейс инструментов, который позволяет вышестоящему планировщику (например, Qwen3.7) динамически переключать режимы работы и управлять контекстом.
Результаты: 76,5% доли успешных прохождений на VLN-CE RxR, 75,6% на HM3Dv2 (навигация к объекту, только RGB-изображения), 91,4 PDMS на NAVSIM (замкнутый цикл автономного вождения). Модель уже успешно протестирована на реальном четвероногом роботе Unitree Go2 с одной низкоразрешающей камерой.
Qwen-RobotManip — манипуляция и взаимодействие
Это наиболее зрелая и сильная модель всего набора. Она построена на базе Qwen3.5-4B с головой действий на основе flow-matching DiT и вводит унифицированное 80-мерное пространство состояний и действий с дельта-позициями в системе координат камеры. Такой подход позволяет эффективно обучаться на данных от разных типов роботов (однорукие, двурукие, руки с высокой ловкостью, мобильные платформы) без конфликтов в данных.
Ключевой момент — масштаб и качество обучения: более 38 100 часов открытых данных, включая реальные записи работы роботов, эгоцентрическое видео людей и синтетические данные, сгенерированные через конвейер преобразования «человек — робот».
Результаты на бенчмарках:
- 91,4% на LIBERO-Plus (на 7 процентных пунктов выше предыдущего лучшего результата);
- 1-е место в общем зачёте RoboChallenge Table30 v1 (45% успешных выполнений, на 20% опережает третье место);
- сильные показатели на RoboTwin, RoboCasa, EBench и других тестах, особенно в сценариях вне распределения обучения и при переносе навыков между разными типами роботов без дополнительного обучения.
Модель демонстрирует emergent-свойства: устойчивость к внешним возмущениям, восстановление после ошибок, выполнение открытых инструкций и перенос навыков между различными роботами.
Qwen-RobotWorld — модель мира и предсказание будущего
Это языково-обусловленная видео-модель мира, которая по текущему наблюдению и текстовой инструкции генерирует физически правдоподобное будущее состояние сцены. Модель обучена на 8,6 млн пар «видео — текст» (более 200 млн кадров) и хорошо понимает физику (законы движения, сохранение массы, поведение жидкостей и т.д.).
Она занимает первые места на EWMBench, DreamGen Bench, WorldModelBench (среди открытых моделей) и PBBench. Особенно ценна возможность точного языкового управления и согласованной генерации с разных точек обзора.
Qwen-RobotClaw — слой интеграции
Важный дополнительный компонент — Qwen-RobotClaw, внутренний инструментарий для робототехнических агентов. Он позволяет обычным визуально-языковым агентам Qwen вызывать модели Robot Suite как инструменты физического мира, управляя контекстом и памятью при выполнении длительных задач.
Именно этот слой превращает три фундаментальные модели в целостную систему для агентов, действующих в физическом мире.
Модели уже находятся в пилотном использовании у избранных корпоративных клиентов Alibaba Cloud в робототехническом секторе.
Опубликованы репозитории на GitHub (QwenLM/Qwen-RobotNav, Qwen-RobotManip и другие) и технические отчёты. Модели доступны через экосистему Qwen, включая платформу Hugging Face. Полные веса и подробные инструкции по интеграции ожидаются в ближайшее время.




