Alibaba представляє Qwen Robot Suite: перша серія фундаментальних моделей для втіленого ШІ та реальних роботів

18:31, 16 червня

Лабораторія Tongyi Lab (підрозділ Alibaba) презентувала Qwen Robot Suite — першу лінійку спеціалізованих моделей, розроблених спеціально для взаємодії з фізичним світом. Це не просто чергове вдосконалення мультимодальних моделей, а системний перехід від чат-ботів, які лише розуміють світ, до фізичних агентів, здатних сприймати оточення, планувати дії та виконувати їх у реальному часі.

Реліз охоплює три фундаментальні моделі:

Qwen-RobotNav — навігація та переміщення у фізичному просторі;
Qwen-RobotManip — маніпуляція об'єктами та взаємодія з оточенням;
Qwen-RobotWorld — прогнозування динаміки сцен і майбутнього стану світу.

Усі моделі базуються на сімействі Qwen (насамперед на візуально-мовних моделях Qwen3-VL та Qwen3.5), навчені виключно на відкритих даних і вже проходять пілотне впровадження у клієнтів Alibaba Cloud.

Моделі Qwen вже давно демонструють глибоке розуміння фізичного світу: вони розпізнають об'єкти, просторові зв'язки, інструкції та причинно-наслідкові ланцюжки. Проте між розумінням і реальною дією залишався принциповий розрив — невідповідність між мовно-візуальними представленнями та командами керування роботом.

Qwen Robot Suite вирішує саме цю проблему, створюючи спеціалізовані «мости» між сприйняттям і дією у трьох ключових сферах: мобільність, маніпуляція та прогнозування стану світу.

Модель поєднує одразу п’ять завдань навігації в межах єдиного фреймворку:

виконання інструкцій природною мовою;
навігація до заданої точки або об'єкта;
відстеження рухомих цілей;
автономне водіння;
відповіді на запитання у фізичному середовищі (Embodied Question Answering).

Вона використовує кероване кодування спостережень та спеціальний інтерфейс інструментів, що дозволяє планувальнику вищого рівня (наприклад, Qwen3.7) динамічно перемикати режими роботи та керувати контекстом.

Результати: 76,5% успішних проходжень на VLN-CE RxR, 75,6% на HM3Dv2 (навігація до об'єкта, лише RGB-зображення), 91,4 PDMS на NAVSIM (замкнений цикл автономного водіння). Модель уже успішно протестована на реальному чотириногому роботі Unitree Go2, оснащеному однією камерою з низькою роздільною здатністю.

Це найбільш зріла та потужна модель у всьому наборі. Вона побудована на базі Qwen3.5-4B з головою дій на основі flow-matching DiT і впроваджує уніфікований 80-вимірний простір станів і дій із дельта-позиціями в системі координат камери. Такий підхід дозволяє ефективно навчатися на даних від різних типів роботів (одноруких, дворуких, маніпуляторів із високою спритністю, мобільних платформ) без виникнення конфліктів у даних.

Ключовий аспект — масштаб і якість навчання: понад 38 100 годин відкритих даних, що включають реальні записи роботи роботів, егоцентричні відео людей та синтетичні дані, згенеровані через конвеєр перетворення «людина — робот».

Результати на бенчмарках:

91,4% на LIBERO-Plus (на 7 відсоткових пунктів вище за попередній найкращий результат);
1-ше місце в загальному заліку RoboChallenge Table30 v1 (45% успішних виконань, що на 20% випереджає третє місце);
високі показники на RoboTwin, RoboCasa, EBench та інших тестах, особливо в сценаріях поза розподілом навчання та при перенесенні навичок між різними типами роботів без додаткового донавчання.

Модель демонструє емерджентні властивості: стійкість до зовнішніх збурень, відновлення після помилок, виконання відкритих інструкцій та перенесення навичок між різними роботами.

Це зумовлена мовою відеомодель світу, яка на основі поточного спостереження та текстової інструкції генерує фізично правдоподібний майбутній стан сцени. Модель навчена на 8,6 млн пар «відео — текст» (понад 200 млн кадрів) і добре розуміє фізику (закони руху, збереження маси, поведінку рідин тощо).

Вона посідає перші місця на EWMBench, DreamGen Bench, WorldModelBench (серед відкритих моделей) та PBBench. Особливо цінною є можливість точного мовного керування та узгодженої генерації з різних точок огляду.

Важливим додатковим компонентом є Qwen-RobotClaw — внутрішній інструментарій для робототехнічних агентів. Він дозволяє звичайним візуально-мовним агентам Qwen викликати моделі Robot Suite як інструменти фізичного світу, керуючи контекстом і пам'яттю під час виконання тривалих завдань.

Саме цей шар перетворює три фундаментальні моделі на цілісну систему для агентів, що діють у реальному світі.

Моделі вже перебувають на стадії пілотного використання в окремих корпоративних клієнтів Alibaba Cloud у робототехнічному секторі.

Опубліковано репозиторії на GitHub (QwenLM/Qwen-RobotNav, Qwen-RobotManip та інші) та технічні звіти. Моделі доступні через екосистему Qwen, включаючи платформу Hugging Face. Повні ваги та детальні інструкції з інтеграції очікуються найближчим часом.

Qwen