阿里巴巴旗下的通义实验室(Tongyi Lab)正式发布了 Qwen Robot Suite,这是首个专门为物理世界交互而设计的专用模型系列。这不仅仅是多模态模型的常规升级,更是从理解世界的聊天机器人向能够感知环境、规划行动并实时执行任务的物理智能体所进行的系统性跨越。
该发布包含以下三款核心基座模型:
- Qwen-RobotNav —— 负责物理空间中的导航与移动;
- Qwen-RobotManip —— 负责物体操纵以及与环境的交互;
- Qwen-RobotWorld —— 负责预测场景动态和世界未来状态。
所有模型均基于 Qwen 系列(主要是 Qwen3-VL 和 Qwen3.5 视觉语言模型)构建,完全采用开源数据训练,且已在阿里巴巴云的部分客户中开展试点应用。
为什么这很重要:弥合理解与行动之间的鸿沟
长期以来,Qwen 模型在理解物理世界方面表现出色:它们能识别物体、空间关系、指令以及因果逻辑。然而,在“理解”与“实际行动”之间仍存在一个根本性的脱节,即语言视觉表征与机器人控制指令之间的不匹配。
Qwen Robot Suite 正是为了解决这一痛点,在移动性、操纵和世界预测这三个关键领域,为感知与行动之间架起了专门的“桥梁”。
Qwen-RobotNav —— 导航与移动
该模型在一个统一的框架下整合了五项导航任务:
- 遵循自然语言指令;
- 导航至指定点或物体;
- 追踪移动目标;
- 自动驾驶;
- 物理环境下的问答(具身问答)。
它采用了引导式观测编码和专门的工具接口,使得高层规划器(如 Qwen3.7)能够动态切换工作模式并管理上下文。
在性能表现方面:模型在 VLN-CE RxR 上的成功率达到 76.5%,在 HM3Dv2(仅依靠 RGB 图像的物体导航)上达到 75.6%,在 NAVSIM(闭环自动驾驶)上获得 91.4 PDMS。此外,该模型已在搭载单台低分辨率摄像头的 Unitree Go2 四足机器人上成功完成了实地测试。
Qwen-RobotManip —— 操纵与交互
这是整个模型系列中成熟度最高、实力最强的模型。它基于 Qwen3.5-4B 构建,配备了基于流匹配 DiT 的动作头,并引入了包含相机坐标系增量位置的统一 80 维状态与动作空间。这种方法使其能够高效地从单臂、双臂、高灵巧手及移动平台等不同类型的机器人数据中学习,且有效避免了数据冲突。
其核心优势在于训练的规模与质量:拥有超过 38,100 小时的开源数据,其中包括机器人作业的真实记录、人类视角的动作视频,以及通过“人到机器人”转换流水线生成的合成数据。
基准测试结果:
- 在 LIBERO-Plus 上达到 91.4%(比此前的最佳纪录高出 7 个百分点);
- 在 RoboChallenge Table30 v1 总榜单中排名第一(成功率 45%,领先第三名 20%);
- 在 RoboTwin、RoboCasa、EBench 等测试中表现强劲,尤其是在分布外场景和跨机器人技能迁移方面,无需额外训练即可实现。
该模型展现出了涌现特性:包括对外部干扰的鲁棒性、错误恢复能力、对开放式指令的执行力,以及在不同机器人之间的技能迁移能力。
Qwen-RobotWorld —— 世界模型与未来预测
这是一个受语言引导的视频世界模型,它能根据当前观测图像和文本指令,生成符合物理规律的场景未来状态。该模型在 860 万对“视频-文本”数据(包含超过 2 亿帧)上进行了训练,对物理规律(如运动定律、质量守恒、液体行为等)有深刻理解。
它在 EWMBench、DreamGen Bench、WorldModelBench(开源模型类)以及 PBBench 中均位列榜首。尤其值得一提的是其精准的语言控制能力,以及在多视角下生成一致内容的能力。
Qwen-RobotClaw —— 集成层
另一个重要的补充组件是 Qwen-RobotClaw,它是机器人智能体的内部工具包。它允许常规的 Qwen 视觉语言智能体将 Robot Suite 模型作为物理世界工具进行调用,并在执行长程任务时管理上下文和记忆。
正是这一层级将这三个基座模型转化为一个完整的系统,助力智能体在物理世界中开展行动。
目前,这些模型已在阿里巴巴云机器人领域的特定企业客户中投入试点使用。
相关的 GitHub 代码仓库(如 QwenLM/Qwen-RobotNav、Qwen-RobotManip 等)及技术报告已经公开发布。这些模型可通过 Qwen 生态系统(包括 Hugging Face 平台)获取。完整的模型权重以及详细的集成指南预计也将在近期陆续公布。




