আলিবাবা উন্মোচন করল Qwen Robot Suite: এমবডাইড এআই এবং বাস্তব রোবটের জন্য প্রথম ফাউন্ডেশন মডেল সিরিজ

18:31, 16 জুন

আলিবাবার সহযোগী প্রতিষ্ঠান টংয়ি ল্যাব (Tongyi Lab) নিয়ে এসেছে Qwen Robot Suite—যা বাস্তব জগতের উপযোগী করে বিশেষভাবে তৈরি করা প্রথম মডেল সিরিজ। এটি কেবল মাল্টিমোডাল মডেলের সাধারণ কোনো উন্নতি নয়, বরং এটি চ্যাটবট থেকে এমন এক ‘ফিজিক্যাল এজেন্ট’-এ রূপান্তর যা চারপাশের পরিবেশ বুঝতে পারে, পরিকল্পনা তৈরি করতে পারে এবং রিয়েল-টাইমে তা সরাসরি সম্পাদন করতে সক্ষম।

এই রিলিজে মোট তিনটি মৌলিক মডেল অন্তর্ভুক্ত রয়েছে:

Qwen-RobotNav — বাস্তব পরিবেশে নেভিগেশন এবং চলাফেরা;
Qwen-RobotManip — বস্তু নাড়াচাড়া করা এবং পারিপার্শ্বিকতার সাথে মিথস্ক্রিয়া;
Qwen-RobotWorld — পরিস্থিতির গতিশীলতা এবং বিশ্বের ভবিষ্যৎ অবস্থা সম্পর্কে পূর্বাভাস প্রদান।

সকল মডেলই কিউয়েন (Qwen) সিরিজের ভিত্তিতে তৈরি (বিশেষত ভিজ্যুয়াল-ল্যাঙ্গুয়েজ মডেল Qwen3-VL এবং Qwen3.5), যা শুধুমাত্র উন্মুক্ত তথ্যের ওপর ভিত্তি করে প্রশিক্ষণ দেওয়া হয়েছে এবং বর্তমানে আলিবাবা ক্লাউড গ্রাহকদের মাধ্যমে পরীক্ষামূলকভাবে ব্যবহৃত হচ্ছে।

কেন এটি গুরুত্বপূর্ণ: বোঝা এবং করার মধ্যে ব্যবধান

কিউয়েন মডেলগুলো দীর্ঘকাল ধরে বাস্তব জগত সম্পর্কে বেশ দক্ষ: তারা বস্তু শনাক্ত করতে পারে, স্থানিক সম্পর্ক বুঝতে পারে এবং কারণ-ফলাফলের নির্দেশাবলী বুঝতে পারে। তবে জগত সম্পর্কে বোঝা এবং বাস্তব পদক্ষেপ নেওয়ার মধ্যে একটি মৌলিক ব্যবধান রয়ে গিয়েছিল—বিশেষ করে ভাষা-ভিজ্যুয়াল ধারণা এবং রোবট পরিচালনার কমান্ডের মধ্যে সামঞ্জস্যের অভাব ছিল।

কিউয়েন রোবট সুইট মূলত এই সমস্যাটির সমাধান করে তিনটি প্রধান ক্ষেত্রে উপলব্ধি এবং কর্মের মাঝে বিশেষ সংযোগ তৈরি করেছে: চলাফেরা, ম্যানিপুলেশন এবং বিশ্বের পূর্বাভাস প্রদান।

Qwen-RobotNav — নেভিগেশন এবং মোবিলিটি

এই মডেলটি নেভিগেশনের পাঁচটি ভিন্ন কাজকে একটি কাঠামোর মধ্যে নিয়ে এসেছে:

স্বাভাবিক ভাষার নির্দেশাবলী অনুসরণ করা;
নির্দিষ্ট স্থান বা বস্তুর দিকে এগিয়ে যাওয়া;
গতিশীল লক্ষ্যবস্তুকে অনুসরণ করা;
স্বয়ংক্রিয়ভাবে যান পরিচালনা করা;
বাস্তব পরিবেশে বিভিন্ন প্রশ্নের উত্তর দেওয়া (এমবডাইড কোয়েশ্চেন অ্যানসারিং)।

এটি পর্যবেক্ষণ এনকোডিং এবং একটি বিশেষ টুল ইন্টারফেস ব্যবহার করে, যা উচ্চস্তরের পরিকল্পনাকারী মডেলকে (যেমন Qwen3.7) কাজের মোড পরিবর্তন করতে এবং প্রসঙ্গের সাথে খাপ খাইয়ে নিতে সহায়তা করে।

ফলাফলের দিকে তাকালে দেখা যায়: VLN-CE RxR-এ ৭৬.৫% এবং HM3Dv2-তে ৭৫.৬% সাফল্যের হার অর্জিত হয়েছে (কেবল আরজিবি ইমেজ ব্যবহার করে বস্তুর নেভিগেশন), এবং NAVSIM-এ এর স্কোর ৯১.৪। মডেলটি ইতিমধ্যে একটি নিম্ন রেজোলিউশন ক্যামেরা ব্যবহার করে বাস্তব Unitree Go2 রোবট কুকুরে সফলভাবে পরীক্ষা করা হয়েছে।

Qwen-RobotManip — ম্যানিপুলেশন এবং মিথস্ক্রিয়া

এটি পুরো সেটের মধ্যে সবচেয়ে পরিপক্ক এবং শক্তিশালী মডেল। এটি Qwen3.5-4B-এর ওপর ভিত্তি করে তৈরি করা হয়েছে এবং এতে ক্যামেরা স্থানাঙ্ক ব্যবস্থা ব্যবহার করে একটি ইউনিফাইড ৮০-মাত্রিক স্টেট ও অ্যাকশন স্পেস প্রবর্তন করা হয়েছে। এই বিশেষ পদ্ধতির ফলে তথ্যের মধ্যে কোনো সংঘাত ছাড়াই বিভিন্ন ধরণের রোবট (যেমন এক বাহু বিশিষ্ট, দুই বাহু বিশিষ্ট, উচ্চ দক্ষতাসম্পন্ন হাত বা মোবাইল প্ল্যাটফর্ম) থেকে প্রাপ্ত ডেটা ব্যবহার করে কার্যকরভাবে প্রশিক্ষণ দেওয়া সম্ভব হয়।

এর প্রশিক্ষণের বিশেষ দিক হলো এর পরিধি ও গুণমান: এখানে ৩৮,১০০ ঘণ্টার বেশি উন্মুক্ত তথ্য ব্যবহার করা হয়েছে, যার মধ্যে রোবটের কাজের বাস্তব রেকর্ডিং, মানুষের দৃষ্টিভঙ্গি থেকে ধারণ করা ভিডিও এবং কৃত্রিমভাবে তৈরি ডেটা অন্তর্ভুক্ত রয়েছে।

বেঞ্চমার্কের ফলাফলগুলো হলো:

LIBERO-Plus-এ ৯১.৪% সাফল্য (আগের সেরা ফলাফলের তুলনায় ৭ শতাংশ বেশি);
রোবোচ্যালেঞ্জ টেবিল-৩০ ভার্সন ১-এ প্রথম স্থান (৪৫% সাফল্য, যা তৃতীয় স্থানের চেয়ে ২০% বেশি);
রোবোটুইন, রোবোকাসা এবং ইবেঞ্চ-এর মতো পরীক্ষায় অসাধারণ পারফরম্যান্স, বিশেষ করে নতুন ধরণের দক্ষতায় মডেলটির মানিয়ে নেওয়ার ক্ষমতা প্রশংসনীয়।

মডেলটি কিছু নতুন বৈশিষ্ট্য প্রদর্শন করে যেমন: বাহ্যিক বিঘ্ন কাটিয়ে ওঠা, ত্রুটি থেকে পুনরায় কাজ শুরু করা, উন্মুক্ত নির্দেশাবলী পালন এবং অতিরিক্ত প্রশিক্ষণ ছাড়াই এক রোবট থেকে অন্য রোবটে দক্ষতা স্থানান্তর।

Qwen-RobotWorld — ওয়ার্ল্ড মডেল এবং ভবিষ্যৎ পূর্বাভাস

এটি ভাষা-নির্ভর একটি ভিডিও ওয়ার্ল্ড মডেল, যা বর্তমান পরিস্থিতি এবং লিখিত নির্দেশনার ওপর ভিত্তি করে বাস্তবসম্মত ভবিষ্যৎ অবস্থা তৈরি করতে পারে। মডেলটি ৮.৬ মিলিয়ন ভিডিও-টেক্সট জোড়া (২০০ মিলিয়নের বেশি ফ্রেম) দিয়ে প্রশিক্ষিত এবং এটি পদার্থবিজ্ঞানের নিয়ম যেমন গতি, ভর সংরক্ষণ এবং তরল পদার্থের আচরণ খুব ভালো বোঝে।

এটি EWMBench, DreamGen Bench এবং WorldModelBench-এর মতো উন্মুক্ত মডেলগুলোর তালিকায় শীর্ষস্থানে রয়েছে। বিশেষত ভাষার মাধ্যমে সুনির্দিষ্ট নিয়ন্ত্রণ এবং বিভিন্ন কোণ থেকে সামঞ্জস্যপূর্ণ দৃশ্য তৈরি করার ক্ষমতা এর অনন্য বৈশিষ্ট্য।

Qwen-RobotClaw — ইন্টিগ্রেশন লেয়ার

একটি গুরুত্বপূর্ণ অতিরিক্ত উপাদান হলো Qwen-RobotClaw, যা রোবটিক এজেন্টদের জন্য একটি অভ্যন্তরীণ টুলকিট। এটি সাধারণ কিউয়েন ভিজ্যুয়াল-ল্যাঙ্গুয়েজ এজেন্টদের বাস্তব জগতের সরঞ্জাম হিসেবে রোবট সুইট মডেলগুলোকে ব্যবহারের সুযোগ দেয় এবং দীর্ঘমেয়াদী কাজ সম্পাদনের সময় মেমরি ও কনটেক্সট পরিচালনা করতে সাহায্য করে।

মূলত এই স্তরটিই তিনটি মৌলিক মডেলকে একটি সমন্বিত ব্যবস্থায় পরিণত করে যা বাস্তব জগতে এজেন্টদের কাজ করার সুযোগ দেয়।

মডেলগুলো বর্তমানে আলিবাবা ক্লাউডের রোবটিক্স খাতের নির্দিষ্ট কিছু কর্পোরেট গ্রাহকদের মধ্যে পরীক্ষামূলকভাবে ব্যবহারের পর্যায়ে রয়েছে।

ইতিমধ্যেই গিটহাব-এ (QwenLM/Qwen-RobotNav, Qwen-RobotManip এবং অন্যান্য) এই সংক্রান্ত রিপোজিটরি এবং প্রযুক্তিগত প্রতিবেদনগুলো প্রকাশ করা হয়েছে। মডেলগুলো কিউয়েন ইকোসিস্টেম এবং হাগিং ফেস (Hugging Face) প্ল্যাটফর্মে পাওয়া যাচ্ছে। পূর্ণাঙ্গ ওয়েট এবং ইন্টিগ্রেশন সম্পর্কিত বিস্তারিত নির্দেশাবলী খুব শীঘ্রই পাওয়া যাবে বলে আশা করা হচ্ছে।

Qwen