OpenDeepThink: কীভাবে ব্র্যাডলি-টেরি অ্যাগ্রিগেশন বড় মডেলগুলোতে সমান্তরাল যুক্তিপ্রক্রিয়াকে বদলে দিচ্ছে

14:52, 15 মে

সম্পাদনা করেছেন: Aleksandr Lytviak

OpenDeepThink: কীভাবে ব্র্যাডলি-টেরি অ্যাগ্রিগেশন বড় মডেলগুলোতে সমান্তরাল যুক্তিপ্রক্রিয়াকে বদলে দিচ্ছে-1 — OpenDeepThink: Bradley--Terry সমষ্টির মাধ্যমে সমান্তরাল যুক্তি (arXiv:2605.15177)

২০২৫ সালের মে মাসে arXiv-এ OpenDeepThink শিরোনামে একটি গবেষণাপত্র প্রকাশিত হয়, যেখানে ব্র্যাডলি-টেরি অ্যাগ্রিগেশন পদ্ধতির মাধ্যমে সমান্তরাল যুক্তিপ্রক্রিয়ার একটি নতুন কৌশল প্রস্তাব করা হয়েছে। গবেষকরা এমন একটি পদ্ধতি উপস্থাপন করেছেন যা স্পষ্ট কোনো রিইনফোর্সমেন্ট লার্নিং ছাড়াই একাধিক যুক্তিধারাকে প্রতিযোগিতার মাধ্যমে একত্রিত হতে সাহায্য করে। এই নিবন্ধের মূল বক্তব্য হলো, প্রচলিত এনসেম্বলিং পদ্ধতির তুলনায় এই কৌশলটি কম্পিউটেশনাল দক্ষতা বজায় রেখেই জটিল সমস্যা সমাধানে গুণগত মান উল্লেখযোগ্যভাবে বৃদ্ধি করে।

প্রযুক্তিগতভাবে, OpenDeepThink কয়েকটি স্বতন্ত্র যুক্তিধারা তৈরি করে, যার প্রতিটি একটি চূড়ান্ত সিদ্ধান্তে পৌঁছায়। এরপর ফলাফলগুলো র‍্যাঙ্ক এবং একত্রিত করার জন্য একটি ব্র্যাডলি-টেরি মডেল ব্যবহার করা হয়, যা আগে থেকেই উত্তরের 'সেরা-বনাম-নিকৃষ্ট' জোড়গুলোর ওপর প্রশিক্ষিত। সাধারণ মেজরিটি ভোটিং বা লজিক অ্যাভারেজিংয়ের বিপরীতে এই পদ্ধতি প্রতিটি যুক্তির আপেক্ষিক শক্তি বিবেচনা করে, যা বিশেষ করে পরস্পরবিরোধী মধ্যবর্তী ধাপগুলোর ক্ষেত্রে অত্যন্ত গুরুত্বপূর্ণ।

লেখকরা গাণিতিক বেঞ্চমার্ক এবং লজিক্যাল ইনফারেন্স টাস্কের ওপর এর কার্যকারিতা প্রদর্শন করেছেন। GSM8K-তে বেস মডেলের তুলনায় ফলাফল ৪-৫ পয়েন্ট বেড়েছে এবং MATH-এর মতো আরও জটিল ডেটাসেটে এই ব্যবধান ৭ পয়েন্ট পর্যন্ত পৌঁছেছে। মজার বিষয় হলো, সমান্তরাল যুক্তিধারার সংখ্যা আটের মধ্যে সীমাবদ্ধ রাখা হয়েছে, যার ফলে ইনফারেন্স খরচ যুক্তিসঙ্গত সীমার মধ্যেই থাকে।

তবে এর মূল্যায়ন পদ্ধতি নিয়ে কিছু প্রশ্ন থেকে যায়। লেখকরা ব্র্যাডলি-টেরি প্রশিক্ষণের জন্য অভ্যন্তরীণ জোড় ব্যবহার করেছেন, কিন্তু এই জোড়গুলো কীভাবে তৈরি করা হয়েছে বা বাস্তব ত্রুটির বিন্যাসের তুলনায় এগুলো কতটা প্রতিনিধিত্বমূলক, তার বিস্তারিত ব্যাখ্যা দেননি। স্বতন্ত্র ডেটাসেটে বাহ্যিক যাচাইকরণের অভাব এই ফলাফলের সার্বজনীনতা সম্পর্কে সন্দেহের অবকাশ রাখে।

ওয়াং এবং অন্যদের সেলফ-কনসিস্টেন্সি এবং পরবর্তী সময়ের ট্রি-অফ-থটস-এর মতো কাজের তুলনায় OpenDeepThink একটি মধ্যপন্থা অবলম্বন করেছে। এটি ট্রি-সার্চের মতো ব্যয়বহুল কম্পিউটেশন এড়িয়ে চলে এবং সাধারণ ভোটিংয়ের চেয়ে সূক্ষ্মতর র‍্যাঙ্কিং মেকানিজম ব্যবহার করে। এটি অনেকটা আরএলএইচএফ ধারণার কাছাকাছি হলেও এতে পূর্ণাঙ্গ রিওয়ার্ড লার্নিং সাইকেলের প্রয়োজন হয় না।

এই গবেষণার একটি গুরুত্বপূর্ণ দিক হলো আনুপাতিক খরচ না বাড়িয়েই সমান্তরাল যুক্তিপ্রক্রিয়াকে বড় পরিসরে নিয়ে যাওয়ার সম্ভাবনা। বিস্তৃত পরিসরের কাজে যদি এই পদ্ধতি সফল প্রমাণিত হয়, তবে এটি প্রোডাকশন সিস্টেমে ইনফারেন্স-টাইম কম্পিউটের ধারণা বদলে দিতে পারে, যেখানে টোকেন বাজেট সীমিত থাকে।

প্রশিক্ষণের জন্য ব্যবহৃত জোড়গুলোর চেয়ে ভিন্ন কোনো ত্রুটির বিন্যাস দেখা দিলে ব্র্যাডলি-টেরি অ্যাগ্রিগেশন কতটা স্থিতিশীল থাকবে, তা এখনও অস্পষ্ট। পরবর্তী গবেষণাগুলো সম্ভবত কোড জেনারেশন এবং বহুভাষিক টাস্কগুলোতে এই পদ্ধতির কার্যকারিতা পরীক্ষা করবে এবং প্রসেস রিওয়ার্ড মডেলের মতো বিকল্প কৌশলের সঙ্গে এর তুলনা করবে।

পরিশেষে, OpenDeepThink এটিই প্রমাণ করে যে আর্কিটেকচারে কোনো আমূল পরিবর্তন না এনেও বিদ্যমান যুক্তিধারাগুলোর বুদ্ধিমত্তাপূর্ণ সমন্বয়ের মাধ্যমে যুক্তিপ্রক্রিয়ার মান উল্লেখযোগ্যভাবে উন্নত করা সম্ভব।

10 দৃশ্য

উৎসসমূহ

OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

এই বিষয়ে আরও নিবন্ধ পড়ুন:

29 জুলাই

লীয়া (Lee)-র সাথে কাজের ফলাফল নিয়ে কীভাবে কাজ করবেন?

28 জুলাই

Nature-এর গবেষণা: স্নাতক কর্মসংস্থানের জন্য AI-এর সাক্ষরতার চেয়ে বিশ্ববিদ্যালয় সমর্থন এবং সুবিধার গুরুত্ব কেন বেশি

24 জুলাই

OpenAI-এর AI নিজে Hugging Face হ্যাক করেছে পরীক্ষার জন্য চুরি করতে। এটি ইতিহাসের প্রথম ঘটনা

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।