২০২৫ সালের মে মাসে arXiv-এ OpenDeepThink শিরোনামে একটি গবেষণাপত্র প্রকাশিত হয়, যেখানে ব্র্যাডলি-টেরি অ্যাগ্রিগেশন পদ্ধতির মাধ্যমে সমান্তরাল যুক্তিপ্রক্রিয়ার একটি নতুন কৌশল প্রস্তাব করা হয়েছে। গবেষকরা এমন একটি পদ্ধতি উপস্থাপন করেছেন যা স্পষ্ট কোনো রিইনফোর্সমেন্ট লার্নিং ছাড়াই একাধিক যুক্তিধারাকে প্রতিযোগিতার মাধ্যমে একত্রিত হতে সাহায্য করে। এই নিবন্ধের মূল বক্তব্য হলো, প্রচলিত এনসেম্বলিং পদ্ধতির তুলনায় এই কৌশলটি কম্পিউটেশনাল দক্ষতা বজায় রেখেই জটিল সমস্যা সমাধানে গুণগত মান উল্লেখযোগ্যভাবে বৃদ্ধি করে।
প্রযুক্তিগতভাবে, OpenDeepThink কয়েকটি স্বতন্ত্র যুক্তিধারা তৈরি করে, যার প্রতিটি একটি চূড়ান্ত সিদ্ধান্তে পৌঁছায়। এরপর ফলাফলগুলো র্যাঙ্ক এবং একত্রিত করার জন্য একটি ব্র্যাডলি-টেরি মডেল ব্যবহার করা হয়, যা আগে থেকেই উত্তরের 'সেরা-বনাম-নিকৃষ্ট' জোড়গুলোর ওপর প্রশিক্ষিত। সাধারণ মেজরিটি ভোটিং বা লজিক অ্যাভারেজিংয়ের বিপরীতে এই পদ্ধতি প্রতিটি যুক্তির আপেক্ষিক শক্তি বিবেচনা করে, যা বিশেষ করে পরস্পরবিরোধী মধ্যবর্তী ধাপগুলোর ক্ষেত্রে অত্যন্ত গুরুত্বপূর্ণ।
লেখকরা গাণিতিক বেঞ্চমার্ক এবং লজিক্যাল ইনফারেন্স টাস্কের ওপর এর কার্যকারিতা প্রদর্শন করেছেন। GSM8K-তে বেস মডেলের তুলনায় ফলাফল ৪-৫ পয়েন্ট বেড়েছে এবং MATH-এর মতো আরও জটিল ডেটাসেটে এই ব্যবধান ৭ পয়েন্ট পর্যন্ত পৌঁছেছে। মজার বিষয় হলো, সমান্তরাল যুক্তিধারার সংখ্যা আটের মধ্যে সীমাবদ্ধ রাখা হয়েছে, যার ফলে ইনফারেন্স খরচ যুক্তিসঙ্গত সীমার মধ্যেই থাকে।
তবে এর মূল্যায়ন পদ্ধতি নিয়ে কিছু প্রশ্ন থেকে যায়। লেখকরা ব্র্যাডলি-টেরি প্রশিক্ষণের জন্য অভ্যন্তরীণ জোড় ব্যবহার করেছেন, কিন্তু এই জোড়গুলো কীভাবে তৈরি করা হয়েছে বা বাস্তব ত্রুটির বিন্যাসের তুলনায় এগুলো কতটা প্রতিনিধিত্বমূলক, তার বিস্তারিত ব্যাখ্যা দেননি। স্বতন্ত্র ডেটাসেটে বাহ্যিক যাচাইকরণের অভাব এই ফলাফলের সার্বজনীনতা সম্পর্কে সন্দেহের অবকাশ রাখে।
ওয়াং এবং অন্যদের সেলফ-কনসিস্টেন্সি এবং পরবর্তী সময়ের ট্রি-অফ-থটস-এর মতো কাজের তুলনায় OpenDeepThink একটি মধ্যপন্থা অবলম্বন করেছে। এটি ট্রি-সার্চের মতো ব্যয়বহুল কম্পিউটেশন এড়িয়ে চলে এবং সাধারণ ভোটিংয়ের চেয়ে সূক্ষ্মতর র্যাঙ্কিং মেকানিজম ব্যবহার করে। এটি অনেকটা আরএলএইচএফ ধারণার কাছাকাছি হলেও এতে পূর্ণাঙ্গ রিওয়ার্ড লার্নিং সাইকেলের প্রয়োজন হয় না।
এই গবেষণার একটি গুরুত্বপূর্ণ দিক হলো আনুপাতিক খরচ না বাড়িয়েই সমান্তরাল যুক্তিপ্রক্রিয়াকে বড় পরিসরে নিয়ে যাওয়ার সম্ভাবনা। বিস্তৃত পরিসরের কাজে যদি এই পদ্ধতি সফল প্রমাণিত হয়, তবে এটি প্রোডাকশন সিস্টেমে ইনফারেন্স-টাইম কম্পিউটের ধারণা বদলে দিতে পারে, যেখানে টোকেন বাজেট সীমিত থাকে।
প্রশিক্ষণের জন্য ব্যবহৃত জোড়গুলোর চেয়ে ভিন্ন কোনো ত্রুটির বিন্যাস দেখা দিলে ব্র্যাডলি-টেরি অ্যাগ্রিগেশন কতটা স্থিতিশীল থাকবে, তা এখনও অস্পষ্ট। পরবর্তী গবেষণাগুলো সম্ভবত কোড জেনারেশন এবং বহুভাষিক টাস্কগুলোতে এই পদ্ধতির কার্যকারিতা পরীক্ষা করবে এবং প্রসেস রিওয়ার্ড মডেলের মতো বিকল্প কৌশলের সঙ্গে এর তুলনা করবে।
পরিশেষে, OpenDeepThink এটিই প্রমাণ করে যে আর্কিটেকচারে কোনো আমূল পরিবর্তন না এনেও বিদ্যমান যুক্তিধারাগুলোর বুদ্ধিমত্তাপূর্ণ সমন্বয়ের মাধ্যমে যুক্তিপ্রক্রিয়ার মান উল্লেখযোগ্যভাবে উন্নত করা সম্ভব।




