Alibaba ने पेश किया Qwen Robot Suite: एम्बॉडेड AI और असली रोबोट्स के लिए फाउंडेशन मॉडल्स की पहली सीरीज़

18:31, 16 जून

अलीबाबा की टोंगयी लैब (Tongyi Lab) ने Qwen Robot Suite को लॉन्च किया है, जो भौतिक दुनिया में काम करने के लिए विशेष रूप से तैयार किए गए मॉडल्स की पहली सीरीज़ है। यह केवल मल्टीमोडल मॉडल्स में सुधार मात्र नहीं है, बल्कि दुनिया को समझने वाले चैटबॉट्स से आगे बढ़कर ऐसे फिजिकल एजेंट्स की ओर एक व्यवस्थित बदलाव है, जो अपने परिवेश को समझने, योजनाओं को बनाने और वास्तविक समय में कार्यों को पूरा करने में सक्षम हैं।

इस रिलीज़ में तीन बुनियादी (फाउंडेशन) मॉडल्स शामिल हैं:

Qwen-RobotNav — भौतिक परिवेश में नेविगेशन और आवाजाही के लिए;
Qwen-RobotManip — वस्तुओं को संभालने और वातावरण के साथ तालमेल बिठाने के लिए;
Qwen-RobotWorld — दृश्य की गतिशीलता और दुनिया की भविष्य की स्थिति का अनुमान लगाने के लिए।

ये सभी मॉडल्स Qwen फैमिली (मुख्य रूप से विजुअल-लैंग्वेज मॉडल्स Qwen3-VL और Qwen3.5) पर आधारित हैं, जिन्हें पूरी तरह से ओपन डेटा पर प्रशिक्षित किया गया है और फिलहाल अलीबाबा क्लाउड के ग्राहकों के साथ इनका पायलट परीक्षण चल रहा है।

Qwen मॉडल्स लंबे समय से भौतिक दुनिया को बेहतर ढंग से समझते रहे हैं: वे वस्तुओं, स्थानिक संबंधों, निर्देशों और कारण-प्रभाव के संबंधों को पहचानने में माहिर हैं। हालाँकि, समझ और वास्तविक क्रिया के बीच एक बुनियादी अंतर बना हुआ था — विशेष रूप से भाषा-दृश्य बोध और रोबोट नियंत्रण कमांड के बीच के तालमेल में।

Qwen Robot Suite मोबिलिटी, मैनिपुलेशन और वर्ल्ड प्रेडिक्शन के तीन प्रमुख क्षेत्रों में बोध और क्रिया के बीच विशेष "ब्रिज" (सेतु) बनाकर इसी समस्या का समाधान करता है।

यह मॉडल नेविगेशन के पांच अलग-अलग कार्यों को एक ही फ्रेमवर्क में जोड़ता है:

प्राकृतिक भाषा के निर्देशों का पालन करना;
निर्धारित बिंदु या वस्तु तक नेविगेट करना;
चलते हुए लक्ष्यों का पीछा करना;
स्वायत्त ड्राइविंग (ऑटोनॉमस ड्राइविंग);
भौतिक वातावरण में पूछे गए प्रश्नों के उत्तर देना (Embodied Question Answering)।

यह ऑब्जर्वेशन कोडिंग और एक विशेष टूल इंटरफेस का उपयोग करता है, जो उच्च-स्तरीय प्लानर (जैसे Qwen3.7) को गतिशील रूप से कार्य मोड बदलने और संदर्भ (कॉन्टेक्स्ट) को प्रबंधित करने की अनुमति देता है।

इसके परिणाम प्रभावशाली हैं: VLN-CE RxR पर 76.5% सफलता दर, HM3Dv2 पर 75.6% (केवल RGB छवियों के साथ ऑब्जेक्ट नेविगेशन), और NAVSIM पर 91.4 PDMS (क्लोज्ड-लूप ऑटोनॉमस ड्राइविंग)। इस मॉडल का वास्तविक चार पैरों वाले रोबोट Unitree Go2 पर सफलतापूर्वक परीक्षण किया गया है, जिसमें केवल एक कम-रिज़ॉल्यूशन वाले कैमरे का उपयोग किया गया था।

यह पूरे सूट का सबसे परिपक्व और शक्तिशाली मॉडल है। यह Qwen3.5-4B पर आधारित है जिसमें फ्लो-मैचिंग DiT-आधारित एक्शन हेड है और यह कैमरा कोऑर्डिनेट सिस्टम में डेल्टा-पोज़िशन के साथ एक एकीकृत 80-आयामी स्टेट-एक्शन स्पेस पेश करता है। यह दृष्टिकोण विभिन्न प्रकार के रोबोटों (एक हाथ वाले, दो हाथ वाले, उच्च निपुणता वाले हाथ, मोबाइल प्लेटफॉर्म) के डेटा से बिना किसी टकराव के प्रभावी ढंग से सीखने में मदद करता है।

प्रशिक्षण का पैमाना और गुणवत्ता भी उल्लेखनीय है: इसमें 38,100 घंटों से अधिक का ओपन डेटा शामिल है, जिसमें रोबोट के वास्तविक रिकॉर्डिंग, मनुष्यों के ईगोसेंट्रिक वीडियो और 'ह्यूमन-टू-रोबोट' पाइपलाइन के माध्यम से तैयार सिंथेटिक डेटा शामिल हैं।

बेंचमार्क पर इसके परिणाम इस प्रकार हैं:

LIBERO-Plus पर 91.4% (पिछले सर्वश्रेष्ठ परिणाम से 7 प्रतिशत अंक अधिक);
RoboChallenge Table30 v1 में प्रथम स्थान (45% सफलता दर, जो तीसरे स्थान से 20% अधिक है);
RoboTwin, RoboCasa, EBench और अन्य परीक्षणों में मजबूत प्रदर्शन, विशेष रूप से ट्रेनिंग डेटा से बाहर के परिदृश्यों और बिना किसी अतिरिक्त प्रशिक्षण के विभिन्न रोबोटों के बीच कौशल हस्तांतरण में।

मॉडल में उभरते हुए (emergent) गुण भी दिखाई देते हैं: बाहरी बाधाओं के प्रति लचीलापन, गलतियों से उबरना, ओपन-एंडेड निर्देशों का पालन और विभिन्न रोबोटों के बीच कौशल का सहज हस्तांतरण।

यह एक भाषा-आधारित वीडियो वर्ल्ड मॉडल है, जो वर्तमान अवलोकन और टेक्स्ट निर्देश के आधार पर भविष्य के भौतिक दृश्यों का निर्माण करता है। इस मॉडल को 86 लाख 'वीडियो-टेक्स्ट' युग्मों (20 करोड़ से अधिक फ्रेम) पर प्रशिक्षित किया गया है और यह भौतिकी (गति के नियम, द्रव्यमान संरक्षण, तरल पदार्थों का व्यवहार आदि) की गहरी समझ रखता है।

यह EWMBench, DreamGen Bench, WorldModelBench (ओपन मॉडल्स के बीच) और PBBench में शीर्ष स्थान पर है। भाषा के माध्यम से सटीक नियंत्रण और विभिन्न दृष्टिकोणों से सुसंगत दृश्य तैयार करने की इसकी क्षमता इसे विशेष रूप से मूल्यवान बनाती है।

एक महत्वपूर्ण अतिरिक्त घटक Qwen-RobotClaw है, जो रोबोटिक एजेंट्स के लिए एक आंतरिक टूलकिट है। यह सामान्य Qwen विजुअल-लैंग्वेज एजेंट्स को भौतिक दुनिया के टूल के रूप में रोबोट सूट मॉडल का उपयोग करने में सक्षम बनाता है, जिससे लंबे कार्यों के दौरान संदर्भ और मेमोरी को प्रबंधित किया जा सकता है।

यही वह परत है जो इन तीन फाउंडेशन मॉडल्स को भौतिक दुनिया में सक्रिय एजेंट्स के लिए एक पूर्ण प्रणाली में बदल देती है।

ये मॉडल्स पहले से ही रोबोटिक्स क्षेत्र में अलीबाबा क्लाउड के चुनिंदा कॉर्पोरेट ग्राहकों द्वारा पायलट आधार पर उपयोग किए जा रहे हैं।

इनके गिटहब (GitHub) रिपॉजिटरी (QwenLM/Qwen-RobotNav, Qwen-RobotManip आदि) और तकनीकी रिपोर्ट प्रकाशित कर दी गई हैं। ये मॉडल्स हगिंग फेस (Hugging Face) प्लेटफॉर्म सहित Qwen इकोसिस्टम के माध्यम से उपलब्ध हैं। इनके पूर्ण वेट्स (weights) और एकीकरण के विस्तृत निर्देश जल्द ही उपलब्ध होने की उम्मीद है।

Qwen