阿里巴巴發表 Qwen Robot Suite:首系列專為具身智慧與真實機器人開發的基礎模型

作者: lee author

阿里巴巴發表 Qwen Robot Suite:首系列專為具身智慧與真實機器人開發的基礎模型-1
阿里巴巴推出 Qwen Robot Suite:面向具身人工智慧與實際機器人的第一系列基礎模型。

阿里巴巴旗下的通義實驗室(Tongyi Lab)正式發表了 Qwen Robot Suite,這是首個專為應對物理環境需求而開發的專用模型系列。這不僅僅是多模態模型的例行升級,更是從僅能理解世界的聊天機器人,轉向具備環境感知、動作規劃並能即時執行任務的具身智慧體的系統性躍進。

本次發布包含三款核心基礎模型:

  • Qwen-RobotNav — 用於物理空間中的導航與移動;
  • Qwen-RobotManip — 用於物體操控與環境互動;
  • Qwen-RobotWorld — 用於預測場景動態與世界未來狀態。

這些模型均基於 Qwen 系列(主要是 Qwen3-VL 與 Qwen3.5 視覺語言模型)構建,完全採用開源數據訓練,且已在阿里巴巴雲端的客戶中開展示範性應用。

為什麼這很重要:彌合理解與行動之間的鴻溝

Qwen 模型長期以來對物理世界已有深刻理解:能辨識物體、空間關係、指令及因果聯繫。然而,在「理解」與「實際行動」之間仍存在核心斷層,即語言視覺表徵與機器人控制指令之間的不匹配。

Qwen Robot Suite 正是為了解決此問題,在移動、操控與世界預測這三個關鍵領域中,建立了感知與行動之間的專用「橋樑」。

Qwen-RobotNav — 導航與移動能力

該模型在單一框架內整合了五項導航任務:

  • 執行自然語言指令;
  • 導航至指定地點或物體;
  • 追蹤移動目標;
  • 自動駕駛;
  • 物理環境中的具身問答(Embodied Question Answering)。

它採用了引導式觀測編碼與專用的工具介面,讓高層規劃器(如 Qwen3.7)能動態切換工作模式並管理上下文。

測試結果顯示:在 VLN-CE RxR 上的成功率達 76.5%,在 HM3Dv2(僅限 RGB 影像的物體導航)達 75.6%,在 NAVSIM(自動駕駛閉環測試)則取得 91.4 PDMS 的佳績。該模型已在僅配備單個低解析度相機的 Unitree Go2 四足機器人上成功完成實測。

Qwen-RobotManip — 操控與互動

這是整個系列中最成熟且強大的模型。它基於 Qwen3.5-4B 開發,採用基於 Flow-matching DiT 的動作頭,並引入了包含相機坐標系下增量位置的統一 80 維狀態動作空間。這種方法能有效學習來自不同機器人(單臂、雙臂、靈巧手、移動平台)的數據,且不會產生數據衝突。

訓練規模與品質是其關鍵:使用了超過 38,100 小時的開源數據,包含機器人運作記錄、人類第一人稱視角影片,以及透過「人機轉換」流程生成的合成數據。

基準測試結果:

  • 在 LIBERO-Plus 達 91.4%(比先前最佳紀錄高出 7 個百分點);
  • 在 RoboChallenge Table30 v1 總榜奪冠(成功率 45%,領先第三名 20%);
  • 在 RoboTwin、RoboCasa、EBench 等測試中表現強勁,特別是在分佈外場景以及無需額外訓練的跨機器人技能轉移方面。

該模型展現了湧現特性:包括對外部干擾的韌性、錯誤恢復能力、執行開放指令,以及在不同機器人間的技能遷移能力。

Qwen-RobotWorld — 世界模型與未來預測

這是一款由語言驅動的影片世界模型,能根據目前的觀測與文字指令,生成符合物理定律的未來場景。該模型採用 860 萬對「影片-文字」對(超過 2 億幀圖像)訓練,能深刻理解物理規律(如運動定律、質量守恆、流體行為等)。

它在 EWMBench、DreamGen Bench、WorldModelBench(開源模型類別)以及 PBBench 中均位列第一。其精確的語言控制能力與多視角一致性生成能力尤為突出。

Qwen-RobotClaw — 整合層

另一個重要的額外組成部分是 Qwen-RobotClaw,這是專為機器人智慧體設計的內部工具集。它讓常規的 Qwen 視覺語言智慧體能將 Robot Suite 模型視為物理世界的工具來調用,在執行長程任務時管理上下文與記憶。

正是這一層級的整合,將三款基礎模型轉化為一個能於物理世界運行的完整智慧系統。

目前,這些模型已由阿里巴巴雲端的部分機器人領域企業客戶進行試點使用。

GitHub 儲存庫(QwenLM/Qwen-RobotNav、Qwen-RobotManip 等)及技術報告已正式發佈。模型可透過包括 Hugging Face 平台在內的 Qwen 生態系統獲取。完整權重與詳細整合說明預計將於近期釋出。

4 浏览量

來源

  • qwen.ai

发现错误或不准确的地方吗?我们会尽快处理您的评论。