El laboratorio Tongyi Lab (una división de Alibaba) ha lanzado Qwen Robot Suite, la primera serie de modelos especializados diseñados específicamente para interactuar con el mundo físico. No se trata simplemente de una mejora más en los modelos multimodales, sino de una transición sistémica: pasamos de chatbots que comprenden el entorno a agentes físicos capaces de percibir su entorno, planificar acciones y ejecutarlas en tiempo real.
El lanzamiento incluye tres modelos fundacionales:
- Qwen-RobotNav: navegación y desplazamiento en espacios físicos;
- Qwen-RobotManip: manipulación de objetos e interacción con el entorno;
- Qwen-RobotWorld: predicción de la dinámica de las escenas y del estado futuro del mundo.
Todos estos modelos se basan en la familia Qwen (principalmente en los modelos de lenguaje y visión Qwen3-VL y Qwen3.5), han sido entrenados exclusivamente con datos abiertos y ya se encuentran en fase de implementación piloto con clientes de Alibaba Cloud.
Por qué es relevante: cerrando la brecha entre comprensión y acción
Desde hace tiempo, los modelos Qwen demuestran una gran comprensión del mundo físico, identificando objetos, relaciones espaciales, instrucciones y nexos causales. No obstante, persistía una brecha fundamental entre el entendimiento y la acción real: la falta de sincronía entre las representaciones visuales-lingüísticas y los comandos de control robótico.
Qwen Robot Suite aborda precisamente este problema mediante la creación de puentes especializados entre la percepción y la acción en tres áreas clave: movilidad, manipulación y predicción del entorno.
Qwen-RobotNav: navegación y movilidad
Este modelo integra cinco tareas de navegación distintas en un marco de trabajo unificado:
- seguimiento de instrucciones en lenguaje natural;
- navegación hacia un punto u objeto específico;
- seguimiento de objetivos en movimiento;
- conducción autónoma;
- resolución de preguntas en entornos físicos (Embodied Question Answering).
La herramienta emplea una codificación de observaciones guiada y una interfaz de instrumentos específica que permite a un planificador de nivel superior (como Qwen3.7) alternar dinámicamente entre modos de operación y gestionar el contexto.
En cuanto a resultados, ha alcanzado un 76,5% de éxito en VLN-CE RxR, un 75,6% en HM3Dv2 (navegación a objetos usando solo imágenes RGB) y 91,4 PDMS en NAVSIM (conducción autónoma de circuito cerrado). El modelo ya ha sido probado con éxito en un robot cuadrúpedo real Unitree Go2 equipado con una única cámara de baja resolución.
Qwen-RobotManip: manipulación e interacción
Se trata del modelo más maduro y potente de toda la suite. Desarrollado sobre la base de Qwen3.5-4B con un cabezal de acción fundamentado en flow-matching DiT, introduce un espacio de estados y acciones unificado de 80 dimensiones con posiciones delta en el sistema de coordenadas de la cámara. Este enfoque permite un aprendizaje eficiente a partir de datos de diversos tipos de robots —brazos individuales, bimanuales, manos de alta destreza o plataformas móviles— sin generar conflictos en la información.
El factor determinante es la escala y calidad del entrenamiento: más de 38.100 horas de datos abiertos que incluyen grabaciones reales de robots en funcionamiento, vídeos egocéntricos de humanos y datos sintéticos generados mediante un proceso de conversión de humano a robot.
Los resultados en las pruebas de rendimiento son destacados:
- 91,4% en LIBERO-Plus (7 puntos porcentuales por encima del mejor registro anterior);
- primer puesto en la clasificación general de RoboChallenge Table30 v1 (45% de éxito, superando al tercer lugar por un 20%);
- sólidos indicadores en RoboTwin, RoboCasa, EBench y otros tests, especialmente en escenarios fuera de la distribución de entrenamiento y en la transferencia de habilidades entre distintos robots sin entrenamiento adicional.
El modelo exhibe propiedades emergentes como la resistencia a perturbaciones externas, la recuperación tras errores, la ejecución de instrucciones abiertas y la transferencia de habilidades entre distintos tipos de autómatas.
Qwen-RobotWorld: modelo de mundo y predicción de futuro
Este es un modelo de mundo en vídeo condicionado por el lenguaje que, a partir de una observación actual y una instrucción de texto, genera un estado futuro de la escena físicamente plausible. Entrenado con 8,6 millones de pares de vídeo y texto (más de 200 millones de fotogramas), demuestra una profunda comprensión de la física, incluyendo leyes del movimiento, conservación de la masa y comportamiento de fluidos.
Lidera los rankings en EWMBench, DreamGen Bench, WorldModelBench (entre los modelos abiertos) y PBBench. Destaca especialmente por su capacidad de control lingüístico preciso y por la generación coherente desde distintos puntos de vista.
Qwen-RobotClaw: la capa de integración
Un componente adicional clave es Qwen-RobotClaw, un conjunto de herramientas internas para agentes robóticos. Esta capa permite que los agentes visuales-lingüísticos estándar de Qwen invoquen los modelos de la Robot Suite como herramientas del mundo físico, gestionando el contexto y la memoria durante la ejecución de tareas prolongadas.
Es precisamente este nivel el que transforma los tres modelos fundacionales en un sistema integral para agentes que operan en el mundo físico.
Los modelos ya se están utilizando en pruebas piloto con clientes corporativos seleccionados de Alibaba Cloud dentro del sector de la robótica.
Se han publicado los repositorios en GitHub (QwenLM/Qwen-RobotNav, Qwen-RobotManip y otros) junto con los informes técnicos correspondientes. Los modelos están disponibles a través del ecosistema Qwen, incluyendo la plataforma Hugging Face, y se espera que los pesos completos y las instrucciones detalladas de integración se liberen próximamente.




