Alibabaが「Qwen Robot Suite」を発表：身体性AIと実環境ロボット向けの初となる基盤モデルシリーズ

18:31, 16 6月

Alibaba傘下のTongyi Lab（通義実験室）は、物理世界での動作に特化して設計された初の一連のモデル「Qwen Robot Suite」をリリースしました。これは単なるマルチモーダルモデルの性能向上にとどまらず、世界を理解するチャットボットから、周囲の状況を認識し、行動を計画し、リアルタイムで実行できる「物理エージェント」への体系的な進化を意味します。

今回のリリースには、以下の3つの基盤モデルが含まれています。

Qwen-RobotNav — 物理空間におけるナビゲーションと移動。
Qwen-RobotManip — 物体操作と環境との相互作用。
Qwen-RobotWorld — シーンの動態と世界の未来状態の予測。

すべてのモデルはQwenファミリー（主に視覚言語モデルのQwen3-VLおよびQwen3.5）をベースに構築されており、公開データのみで学習され、すでにAlibaba Cloudの顧客企業でパイロット導入が進められています。

なぜ重要なのか：理解と行動の間にある溝

Qwenモデルは以前から、物体の認識、空間的な関係性、指示内容、そして因果関係といった物理世界を高度に理解する能力を備えていました。しかし、その理解を実際の行動へと移すには、言語・視覚的な表現とロボットの制御コマンドが一致しないという、根本的なギャップが依然として存在していました。

Qwen Robot Suiteは、移動、操作、世界予測という3つの主要分野において、認識と行動を繋ぐ専用の「架け橋」を構築することで、まさにこの課題を解決します。

Qwen-RobotNav — ナビゲーションとモビリティ

このモデルは、5つの主要なナビゲーションタスクを単一のフレームワークに統合しています。

自然言語による指示への追従。
指定された地点や物体へのナビゲーション。
動く標的の追跡。
自律走行。
物理環境下での質問回答（Embodied Question Answering）。

同モデルは、制御された観測コーディングと独自のツールインターフェースを採用しており、Qwen3.7などの上位プランナーが動作モードを動的に切り替え、コンテキストを管理することを可能にします。

その実績として、VLN-CE RxRで76.5%の成功率、HM3Dv2（物体へのナビゲーション、RGB画像のみ使用）で75.6%、NAVSIM（自律走行のクローズドループ評価）で91.4 PDMSを記録しました。このモデルは、低解像度カメラ1台のみを搭載した実機の4足歩行ロボット「Unitree Go2」においても、すでにテストに成功しています。

Qwen-RobotManip — 操作と相互作用

これは本スイートの中で最も成熟し、強力なモデルです。Qwen3.5-4Bをベースに、フロー・マッチングDiTを採用したアクションヘッドを備え、カメラ座標系での相対位置を用いた統一された80次元の状態・行動空間を導入しています。この手法により、単腕、双腕、器用なハンド、移動プラットフォームなど、異なるタイプのロボットからのデータでも衝突することなく効率的に学習できます。

特筆すべきは学習の規模と質であり、実際のロボットの動作記録、人間の主観視点ビデオ、および「人間からロボットへ」の変換パイプラインによって生成された合成データを含む、38,100時間以上の公開データが活用されています。

ベンチマークの結果は以下の通りです。

LIBERO-Plusにおいて91.4%を達成（従来の最高記録を7ポイント更新）。
RoboChallenge Table30 v1で総合1位（成功率45%を記録し、3位に20%の差をつけて圧倒）。
RoboTwin、RoboCasa、EBenchなどの各テストでも、特に未学習のシナリオや、追加学習なしでの異なるロボット種別間でのスキル転移において強力な性能を示しています。

また、このモデルは外乱への耐性、エラーからの自己回復、オープンな指示の実行、異なるロボット間でのスキル移転といった「創発的」な特性も備えています。

Qwen-RobotWorld — 世界モデルと未来予測

これは言語条件付きのビデオ世界モデルであり、現在の観測状況とテキスト指示に基づき、物理的に妥当なシーンの未来状態を生成します。モデルは860万件のビデオとテキストのペア（2億フレーム以上）で学習されており、運動の法則、質量保存、流体の挙動といった物理現象を深く理解しています。

オープンモデルとしてEWMBench、DreamGen Bench、WorldModelBench、およびPBBenchで首位を獲得しています。特に、言語による正確な制御と、異なる視点からの整合性を保った動画生成能力が極めて高く評価されています。

Qwen-RobotClaw — 統合レイヤー

重要な追加コンポーネントとして、ロボットエージェント用ツールキットである「Qwen-RobotClaw」が用意されています。これにより、標準的なQwen視覚言語エージェントが、長時間のタスク実行においてコンテキストやメモリを管理しながら、Robot Suiteの各モデルを物理世界を操作するツールとして呼び出すことができます。

このレイヤーこそが、3つの基盤モデルを、物理世界で自律的に活動するエージェントのための完結したシステムへと統合する役割を果たします。

これらのモデルは、ロボット産業におけるAlibaba Cloudの特定の企業顧客において、すでにパイロット運用が開始されています。

GitHubリポジトリ（QwenLM/Qwen-RobotNav、Qwen-RobotManip等）およびテクニカルレポートが公開されました。モデルはHugging Faceプラットフォームを含むQwenエコシステムを通じて入手可能です。完全なモデルの重みと詳細な統合ガイドも、間もなく公開される予定です。

Qwen