আলিবাবা উন্মোচন করল Qwen Robot Suite: এমবডাইড এআই এবং বাস্তব রোবটের জন্য প্রথম ফাউন্ডেশন মডেল সিরিজ

লেখক: lee author

আলিবাবা উন্মোচন করল Qwen Robot Suite: এমবডাইড এআই এবং বাস্তব রোবটের জন্য প্রথম ফাউন্ডেশন মডেল সিরিজ-1
আলিবাবা Qwen Robot Suite উপস্থাপন করছে: অবয়বযুক্ত AI এবং বাস্তব রোবটগুলোর জন্য মৌলিক মডেলগুলির প্রথম সিরিজ।

আলিবাবার সহযোগী প্রতিষ্ঠান টংয়ি ল্যাব (Tongyi Lab) নিয়ে এসেছে Qwen Robot Suite—যা বাস্তব জগতের উপযোগী করে বিশেষভাবে তৈরি করা প্রথম মডেল সিরিজ। এটি কেবল মাল্টিমোডাল মডেলের সাধারণ কোনো উন্নতি নয়, বরং এটি চ্যাটবট থেকে এমন এক ‘ফিজিক্যাল এজেন্ট’-এ রূপান্তর যা চারপাশের পরিবেশ বুঝতে পারে, পরিকল্পনা তৈরি করতে পারে এবং রিয়েল-টাইমে তা সরাসরি সম্পাদন করতে সক্ষম।

এই রিলিজে মোট তিনটি মৌলিক মডেল অন্তর্ভুক্ত রয়েছে:

  • Qwen-RobotNav — বাস্তব পরিবেশে নেভিগেশন এবং চলাফেরা;
  • Qwen-RobotManip — বস্তু নাড়াচাড়া করা এবং পারিপার্শ্বিকতার সাথে মিথস্ক্রিয়া;
  • Qwen-RobotWorld — পরিস্থিতির গতিশীলতা এবং বিশ্বের ভবিষ্যৎ অবস্থা সম্পর্কে পূর্বাভাস প্রদান।

সকল মডেলই কিউয়েন (Qwen) সিরিজের ভিত্তিতে তৈরি (বিশেষত ভিজ্যুয়াল-ল্যাঙ্গুয়েজ মডেল Qwen3-VL এবং Qwen3.5), যা শুধুমাত্র উন্মুক্ত তথ্যের ওপর ভিত্তি করে প্রশিক্ষণ দেওয়া হয়েছে এবং বর্তমানে আলিবাবা ক্লাউড গ্রাহকদের মাধ্যমে পরীক্ষামূলকভাবে ব্যবহৃত হচ্ছে।

কেন এটি গুরুত্বপূর্ণ: বোঝা এবং করার মধ্যে ব্যবধান

কিউয়েন মডেলগুলো দীর্ঘকাল ধরে বাস্তব জগত সম্পর্কে বেশ দক্ষ: তারা বস্তু শনাক্ত করতে পারে, স্থানিক সম্পর্ক বুঝতে পারে এবং কারণ-ফলাফলের নির্দেশাবলী বুঝতে পারে। তবে জগত সম্পর্কে বোঝা এবং বাস্তব পদক্ষেপ নেওয়ার মধ্যে একটি মৌলিক ব্যবধান রয়ে গিয়েছিল—বিশেষ করে ভাষা-ভিজ্যুয়াল ধারণা এবং রোবট পরিচালনার কমান্ডের মধ্যে সামঞ্জস্যের অভাব ছিল।

কিউয়েন রোবট সুইট মূলত এই সমস্যাটির সমাধান করে তিনটি প্রধান ক্ষেত্রে উপলব্ধি এবং কর্মের মাঝে বিশেষ সংযোগ তৈরি করেছে: চলাফেরা, ম্যানিপুলেশন এবং বিশ্বের পূর্বাভাস প্রদান।

Qwen-RobotNav — নেভিগেশন এবং মোবিলিটি

এই মডেলটি নেভিগেশনের পাঁচটি ভিন্ন কাজকে একটি কাঠামোর মধ্যে নিয়ে এসেছে:

  • স্বাভাবিক ভাষার নির্দেশাবলী অনুসরণ করা;
  • নির্দিষ্ট স্থান বা বস্তুর দিকে এগিয়ে যাওয়া;
  • গতিশীল লক্ষ্যবস্তুকে অনুসরণ করা;
  • স্বয়ংক্রিয়ভাবে যান পরিচালনা করা;
  • বাস্তব পরিবেশে বিভিন্ন প্রশ্নের উত্তর দেওয়া (এমবডাইড কোয়েশ্চেন অ্যানসারিং)।

এটি পর্যবেক্ষণ এনকোডিং এবং একটি বিশেষ টুল ইন্টারফেস ব্যবহার করে, যা উচ্চস্তরের পরিকল্পনাকারী মডেলকে (যেমন Qwen3.7) কাজের মোড পরিবর্তন করতে এবং প্রসঙ্গের সাথে খাপ খাইয়ে নিতে সহায়তা করে।

ফলাফলের দিকে তাকালে দেখা যায়: VLN-CE RxR-এ ৭৬.৫% এবং HM3Dv2-তে ৭৫.৬% সাফল্যের হার অর্জিত হয়েছে (কেবল আরজিবি ইমেজ ব্যবহার করে বস্তুর নেভিগেশন), এবং NAVSIM-এ এর স্কোর ৯১.৪। মডেলটি ইতিমধ্যে একটি নিম্ন রেজোলিউশন ক্যামেরা ব্যবহার করে বাস্তব Unitree Go2 রোবট কুকুরে সফলভাবে পরীক্ষা করা হয়েছে।

Qwen-RobotManip — ম্যানিপুলেশন এবং মিথস্ক্রিয়া

এটি পুরো সেটের মধ্যে সবচেয়ে পরিপক্ক এবং শক্তিশালী মডেল। এটি Qwen3.5-4B-এর ওপর ভিত্তি করে তৈরি করা হয়েছে এবং এতে ক্যামেরা স্থানাঙ্ক ব্যবস্থা ব্যবহার করে একটি ইউনিফাইড ৮০-মাত্রিক স্টেট ও অ্যাকশন স্পেস প্রবর্তন করা হয়েছে। এই বিশেষ পদ্ধতির ফলে তথ্যের মধ্যে কোনো সংঘাত ছাড়াই বিভিন্ন ধরণের রোবট (যেমন এক বাহু বিশিষ্ট, দুই বাহু বিশিষ্ট, উচ্চ দক্ষতাসম্পন্ন হাত বা মোবাইল প্ল্যাটফর্ম) থেকে প্রাপ্ত ডেটা ব্যবহার করে কার্যকরভাবে প্রশিক্ষণ দেওয়া সম্ভব হয়।

এর প্রশিক্ষণের বিশেষ দিক হলো এর পরিধি ও গুণমান: এখানে ৩৮,১০০ ঘণ্টার বেশি উন্মুক্ত তথ্য ব্যবহার করা হয়েছে, যার মধ্যে রোবটের কাজের বাস্তব রেকর্ডিং, মানুষের দৃষ্টিভঙ্গি থেকে ধারণ করা ভিডিও এবং কৃত্রিমভাবে তৈরি ডেটা অন্তর্ভুক্ত রয়েছে।

বেঞ্চমার্কের ফলাফলগুলো হলো:

  • LIBERO-Plus-এ ৯১.৪% সাফল্য (আগের সেরা ফলাফলের তুলনায় ৭ শতাংশ বেশি);
  • রোবোচ্যালেঞ্জ টেবিল-৩০ ভার্সন ১-এ প্রথম স্থান (৪৫% সাফল্য, যা তৃতীয় স্থানের চেয়ে ২০% বেশি);
  • রোবোটুইন, রোবোকাসা এবং ইবেঞ্চ-এর মতো পরীক্ষায় অসাধারণ পারফরম্যান্স, বিশেষ করে নতুন ধরণের দক্ষতায় মডেলটির মানিয়ে নেওয়ার ক্ষমতা প্রশংসনীয়।

মডেলটি কিছু নতুন বৈশিষ্ট্য প্রদর্শন করে যেমন: বাহ্যিক বিঘ্ন কাটিয়ে ওঠা, ত্রুটি থেকে পুনরায় কাজ শুরু করা, উন্মুক্ত নির্দেশাবলী পালন এবং অতিরিক্ত প্রশিক্ষণ ছাড়াই এক রোবট থেকে অন্য রোবটে দক্ষতা স্থানান্তর।

Qwen-RobotWorld — ওয়ার্ল্ড মডেল এবং ভবিষ্যৎ পূর্বাভাস

এটি ভাষা-নির্ভর একটি ভিডিও ওয়ার্ল্ড মডেল, যা বর্তমান পরিস্থিতি এবং লিখিত নির্দেশনার ওপর ভিত্তি করে বাস্তবসম্মত ভবিষ্যৎ অবস্থা তৈরি করতে পারে। মডেলটি ৮.৬ মিলিয়ন ভিডিও-টেক্সট জোড়া (২০০ মিলিয়নের বেশি ফ্রেম) দিয়ে প্রশিক্ষিত এবং এটি পদার্থবিজ্ঞানের নিয়ম যেমন গতি, ভর সংরক্ষণ এবং তরল পদার্থের আচরণ খুব ভালো বোঝে।

এটি EWMBench, DreamGen Bench এবং WorldModelBench-এর মতো উন্মুক্ত মডেলগুলোর তালিকায় শীর্ষস্থানে রয়েছে। বিশেষত ভাষার মাধ্যমে সুনির্দিষ্ট নিয়ন্ত্রণ এবং বিভিন্ন কোণ থেকে সামঞ্জস্যপূর্ণ দৃশ্য তৈরি করার ক্ষমতা এর অনন্য বৈশিষ্ট্য।

Qwen-RobotClaw — ইন্টিগ্রেশন লেয়ার

একটি গুরুত্বপূর্ণ অতিরিক্ত উপাদান হলো Qwen-RobotClaw, যা রোবটিক এজেন্টদের জন্য একটি অভ্যন্তরীণ টুলকিট। এটি সাধারণ কিউয়েন ভিজ্যুয়াল-ল্যাঙ্গুয়েজ এজেন্টদের বাস্তব জগতের সরঞ্জাম হিসেবে রোবট সুইট মডেলগুলোকে ব্যবহারের সুযোগ দেয় এবং দীর্ঘমেয়াদী কাজ সম্পাদনের সময় মেমরি ও কনটেক্সট পরিচালনা করতে সাহায্য করে।

মূলত এই স্তরটিই তিনটি মৌলিক মডেলকে একটি সমন্বিত ব্যবস্থায় পরিণত করে যা বাস্তব জগতে এজেন্টদের কাজ করার সুযোগ দেয়।

মডেলগুলো বর্তমানে আলিবাবা ক্লাউডের রোবটিক্স খাতের নির্দিষ্ট কিছু কর্পোরেট গ্রাহকদের মধ্যে পরীক্ষামূলকভাবে ব্যবহারের পর্যায়ে রয়েছে।

ইতিমধ্যেই গিটহাব-এ (QwenLM/Qwen-RobotNav, Qwen-RobotManip এবং অন্যান্য) এই সংক্রান্ত রিপোজিটরি এবং প্রযুক্তিগত প্রতিবেদনগুলো প্রকাশ করা হয়েছে। মডেলগুলো কিউয়েন ইকোসিস্টেম এবং হাগিং ফেস (Hugging Face) প্ল্যাটফর্মে পাওয়া যাচ্ছে। পূর্ণাঙ্গ ওয়েট এবং ইন্টিগ্রেশন সম্পর্কিত বিস্তারিত নির্দেশাবলী খুব শীঘ্রই পাওয়া যাবে বলে আশা করা হচ্ছে।

4 দৃশ্য

উৎসসমূহ

  • qwen.ai

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।