Tongyi Lab, salah satu divisi Alibaba, baru saja meluncurkan Qwen Robot Suite, yang merupakan seri model khusus pertama yang dirancang untuk beroperasi di dunia fisik. Ini bukan sekadar peningkatan model multimodal biasa, melainkan sebuah transisi sistemik dari chatbot yang hanya memahami dunia menjadi agen fisik yang mampu mempersepsikan lingkungan, merencanakan tindakan, serta mengeksekusinya secara real-time.
Perilisan ini mencakup tiga model dasar utama:
- Qwen-RobotNav — untuk navigasi dan pergerakan di ruang fisik;
- Qwen-RobotManip — untuk manipulasi objek dan interaksi dengan lingkungan sekitar;
- Qwen-RobotWorld — untuk memprediksi dinamika adegan dan kondisi dunia di masa depan.
Seluruh model ini dibangun menggunakan basis keluarga Qwen (terutama model bahasa-visual Qwen3-VL dan Qwen3.5), dilatih sepenuhnya dengan data terbuka, dan saat ini sudah mulai diimplementasikan secara pilot oleh pelanggan Alibaba Cloud.
Mengapa ini Penting: Menutup Celah Antara Pemahaman dan Tindakan
Model Qwen sebenarnya sudah lama memiliki pemahaman yang baik tentang dunia fisik, seperti mengenali objek, hubungan spasial, instruksi, hingga hubungan sebab-akibat. Namun, selama ini masih terdapat kesenjangan mendasar antara pemahaman tersebut dengan tindakan nyata, yaitu adanya ketidaksesuaian antara representasi bahasa-visual dengan perintah kendali robot.
Qwen Robot Suite hadir untuk mengatasi masalah tersebut dengan menciptakan "jembatan" khusus antara persepsi dan tindakan dalam tiga bidang utama: mobilitas, manipulasi, serta prediksi dunia.
Qwen-RobotNav — Navigasi dan Mobilitas
Model ini menyatukan lima tugas navigasi sekaligus dalam satu kerangka kerja tunggal:
- mengikuti instruksi bahasa alami;
- navigasi menuju titik atau objek tertentu;
- pelacakan target yang bergerak;
- kemampuan mengemudi otonom;
- menjawab pertanyaan dalam lingkungan fisik (Embodied Question Answering).
Model ini memanfaatkan pengodean pengamatan yang terkendali serta antarmuka alat khusus yang memungkinkan perencana tingkat tinggi (seperti Qwen3.7) untuk beralih mode operasi dan mengelola konteks secara dinamis.
Hasilnya menunjukkan tingkat keberhasilan sebesar 76,5% pada VLN-CE RxR, 75,6% pada HM3Dv2 (navigasi objek dengan citra RGB saja), serta skor 91,4 PDMS pada NAVSIM (sistem mengemudi otonom loop tertutup). Model ini pun telah berhasil diuji coba pada robot berkaki empat Unitree Go2 asli yang hanya dilengkapi satu kamera beresolusi rendah.
Qwen-RobotManip — Manipulasi dan Interaksi
Ini merupakan model yang paling matang dan kuat dalam seluruh rangkaian suite tersebut. Dibangun di atas basis Qwen3.5-4B dengan action head berbasis flow-matching DiT, model ini memperkenalkan ruang status dan tindakan 80-dimensi yang terpadu dengan delta-posisi dalam sistem koordinat kamera. Pendekatan ini memungkinkannya belajar secara efektif dari data berbagai jenis robot—seperti robot satu lengan, dua lengan, tangan dengan ketangkasan tinggi, hingga platform seluler—tanpa menimbulkan konflik data.
Poin kuncinya terletak pada skala dan kualitas pelatihan yang mencakup lebih dari 38.100 jam data terbuka, termasuk rekaman asli operasional robot, video sudut pandang orang pertama (egosentris) dari manusia, serta data sintetis yang dihasilkan melalui pipa konversi "manusia-ke-robot".
Hasil pada Tolok Ukur
- 91,4% pada LIBERO-Plus (unggul 7 poin persentase dari rekor terbaik sebelumnya);
- Peringkat pertama secara keseluruhan di RoboChallenge Table30 v1 (tingkat keberhasilan 45%, melampaui posisi ketiga sebesar 20%);
- Performa kuat pada RoboTwin, RoboCasa, EBench, dan pengujian lainnya, terutama dalam skenario di luar distribusi pelatihan serta transfer keterampilan antar jenis robot yang berbeda tanpa pelatihan tambahan.
Model ini menunjukkan sifat-sifat emergent seperti ketahanan terhadap gangguan eksternal, kemampuan pemulihan pasca-kesalahan, pelaksanaan instruksi terbuka, serta transfer keterampilan antar berbagai jenis robot.
Qwen-RobotWorld — Model Dunia dan Prediksi Masa Depan
Ini adalah model dunia video berbasis bahasa yang mampu menghasilkan kondisi masa depan suatu adegan secara fisik yang masuk akal berdasarkan pengamatan saat ini dan instruksi teks. Dilatih menggunakan 8,6 juta pasangan "video-teks" (lebih dari 200 juta bingkai), model ini memiliki pemahaman fisika yang mendalam, termasuk hukum gerak, kekekalan massa, hingga perilaku cairan.
Model ini menduduki peringkat teratas pada EWMBench, DreamGen Bench, WorldModelBench (di antara model terbuka lainnya), dan PBBench. Keunggulan utamanya terletak pada kemampuan kendali bahasa yang presisi serta generasi yang konsisten dari berbagai sudut pandang.
Qwen-RobotClaw — Lapisan Integrasi
Komponen tambahan yang tak kalah penting adalah Qwen-RobotClaw, sebuah perangkat internal untuk agen robotika. Fitur ini memungkinkan agen bahasa-visual Qwen standar untuk memanggil model-model dalam Robot Suite sebagai alat bantu di dunia fisik, sembari mengelola konteks dan memori saat menjalankan tugas berdurasi panjang.
Lapisan inilah yang mengubah ketiga model dasar tersebut menjadi sebuah sistem utuh bagi para agen yang beroperasi di dunia nyata.
Saat ini, model-model tersebut sudah mulai digunakan secara pilot oleh sejumlah pelanggan korporat terpilih Alibaba Cloud di sektor robotika.
Repositori GitHub (QwenLM/Qwen-RobotNav, Qwen-RobotManip, dan lainnya) beserta laporan teknisnya telah resmi dipublikasikan. Model-model ini dapat diakses melalui ekosistem Qwen, termasuk platform Hugging Face. Bobot model lengkap dan panduan integrasi mendalam diperkirakan akan segera menyusul dalam waktu dekat.




