Alibaba présente Qwen Robot Suite : la première série de modèles fondamentaux pour l'IA incarnée et la robotique réelle

18:31, 16 juin

Le laboratoire Tongyi Lab, une division d'Alibaba, a lancé Qwen Robot Suite — sa première série de modèles spécialisés conçus spécifiquement pour opérer dans le monde physique. Il ne s'agit pas d'une simple amélioration supplémentaire des modèles multimodaux, mais d'une transition systémique des agents conversationnels comprenant le monde vers des agents physiques capables de percevoir leur environnement, de planifier des actions et de les exécuter en temps réel.

Cette version comprend trois modèles fondamentaux :

Qwen-RobotNav — navigation et déplacement dans l'espace physique ;
Qwen-RobotManip — manipulation d'objets et interaction avec l'environnement ;
Qwen-RobotWorld — prédiction de la dynamique des scènes et de l'état futur du monde.

Tous les modèles reposent sur la famille Qwen (principalement les modèles visio-linguistiques Qwen3-VL et Qwen3.5), ont été entraînés exclusivement sur des données ouvertes et font déjà l'objet de déploiements pilotes auprès des clients d'Alibaba Cloud.

Pourquoi c'est important : combler le fossé entre la compréhension et l'action

Les modèles Qwen comprennent depuis longtemps très bien le monde physique : ils reconnaissent les objets, les relations spatiales, les instructions et les liens de cause à effet. Cependant, il subsistait un fossé fondamental entre la compréhension et l'action réelle — une inadéquation entre les représentations visio-linguistiques et les commandes de contrôle robotique.

La suite Qwen Robot apporte une solution à ce problème précis en créant des ponts spécialisés entre la perception et l'action dans trois domaines clés : la mobilité, la manipulation et la prédiction du monde.

Qwen-RobotNav — navigation et mobilité

Le modèle réunit cinq tâches de navigation distinctes au sein d'un cadre unique :

le respect d'instructions en langage naturel ;
la navigation vers un point ou un objet donné ;
le suivi de cibles mobiles ;
la conduite autonome ;
la réponse aux questions dans un environnement physique (Embodied Question Answering).

Il utilise un codage d'observations guidé ainsi qu'une interface d'outils spécifique qui permet à un planificateur de niveau supérieur (tel que Qwen3.7) de basculer dynamiquement entre les modes de fonctionnement et de gérer le contexte.

Résultats : un taux de réussite de 76,5 % sur VLN-CE RxR, 75,6 % sur HM3Dv2 (navigation vers un objet avec images RGB uniquement) et 91,4 PDMS sur NAVSIM (conduite autonome en boucle fermée). Le modèle a déjà été testé avec succès sur un véritable robot quadrupède Unitree Go2 équipé d'une seule caméra basse résolution.

Qwen-RobotManip — manipulation et interaction

Il s'agit du modèle le plus mature et le plus performant de toute la suite. Construit sur la base de Qwen3.5-4B avec une tête d'action utilisant le flow-matching DiT, il introduit un espace d'états et d'actions unifié à 80 dimensions avec des positions relatives dans le système de coordonnées de la caméra. Cette approche permet un apprentissage efficace à partir de données provenant de divers types de robots (monobras, bibras, mains à haute dextérité, plateformes mobiles) sans générer de conflits de données.

Le point crucial réside dans l'échelle et la qualité de l'entraînement : plus de 38 100 heures de données ouvertes, incluant des enregistrements réels de robots, des vidéos humaines égocentrées et des données synthétiques générées via un pipeline de conversion humain-vers-robot.

Résultats sur les bancs d'essai :

91,4 % sur LIBERO-Plus (soit 7 points de pourcentage de plus que le précédent record) ;
1ère place au classement général du RoboChallenge Table30 v1 (45 % de réussite, devançant le troisième de 20 %) ;
de solides performances sur RoboTwin, RoboCasa, EBench et d'autres tests, notamment dans des scénarios hors distribution et lors du transfert de compétences entre différents robots sans entraînement supplémentaire.

Le modèle manifeste des propriétés émergentes : résistance aux perturbations externes, capacité de récupération après erreur, exécution d'instructions ouvertes et transfert de compétences entre divers types de robots.

Qwen-RobotWorld — modèle de monde et prédiction du futur

Il s'agit d'un modèle de monde vidéo piloté par le langage qui, à partir d'une observation actuelle et d'une instruction textuelle, génère un état futur de la scène physiquement plausible. Le modèle a été entraîné sur 8,6 millions de paires vidéo-texte (plus de 200 millions d'images) et possède une fine compréhension de la physique (lois du mouvement, conservation de la masse, comportement des fluides, etc.).

Il occupe la première place sur EWMBench, DreamGen Bench, WorldModelBench (parmi les modèles ouverts) et PBBench. La capacité de contrôle linguistique précis et de génération cohérente depuis plusieurs points de vue est particulièrement précieuse.

Qwen-RobotClaw — couche d'intégration

Un composant additionnel majeur est Qwen-RobotClaw, une boîte à outils interne pour les agents robotiques. Elle permet aux agents visio-linguistiques Qwen habituels d'appeler les modèles de la Robot Suite comme des outils du monde physique, tout en gérant le contexte et la mémoire pour l'exécution de tâches complexes.

C'est cette couche qui transforme les trois modèles fondamentaux en un système intégré pour des agents agissant dans le monde réel.

Les modèles font déjà l'objet d'une utilisation pilote par des clients entreprises sélectionnés d'Alibaba Cloud au sein du secteur robotique.

Les dépôts GitHub (QwenLM/Qwen-RobotNav, Qwen-RobotManip, etc.) et les rapports techniques ont été publiés. Les modèles sont disponibles via l'écosystème Qwen, y compris sur la plateforme Hugging Face. Les poids complets et les protocoles d'intégration détaillés sont attendus prochainement.

Qwen

Qwen Robot

Alibaba

31 Vues

Sources

qwen.ai

Lire plus d'articles sur ce sujet :

29 juillet

Comment travailler avec les résultats du travail avec Lee ?

28 juillet

Étude Nature : pourquoi le soutien universitaire et la facilité d'utilisation de l'IA sont plus importants que la littératie pour l'emploi des diplômés

24 juillet

L'IA d'OpenAI a piraté indépendamment Hugging Face pour tricher à un test. C'est le premier cas de ce type dans l'histoire

Avez-vous trouvé une erreur ou une inexactitude ?Nous étudierons vos commentaires dans les plus brefs délais.