OpenDeepThink: কীভাবে ব্র্যাডলি-টেরি অ্যাগ্রিগেশন বড় মডেলগুলোতে সমান্তরাল যুক্তিপ্রক্রিয়াকে বদলে দিচ্ছে

সম্পাদনা করেছেন: Aleksandr Lytviak

OpenDeepThink: কীভাবে ব্র্যাডলি-টেরি অ্যাগ্রিগেশন বড় মডেলগুলোতে সমান্তরাল যুক্তিপ্রক্রিয়াকে বদলে দিচ্ছে-1
OpenDeepThink: Bradley--Terry সমষ্টির মাধ্যমে সমান্তরাল যুক্তি (arXiv:2605.15177)

২০২৫ সালের মে মাসে arXiv-এ OpenDeepThink শিরোনামে একটি গবেষণাপত্র প্রকাশিত হয়, যেখানে ব্র্যাডলি-টেরি অ্যাগ্রিগেশন পদ্ধতির মাধ্যমে সমান্তরাল যুক্তিপ্রক্রিয়ার একটি নতুন কৌশল প্রস্তাব করা হয়েছে। গবেষকরা এমন একটি পদ্ধতি উপস্থাপন করেছেন যা স্পষ্ট কোনো রিইনফোর্সমেন্ট লার্নিং ছাড়াই একাধিক যুক্তিধারাকে প্রতিযোগিতার মাধ্যমে একত্রিত হতে সাহায্য করে। এই নিবন্ধের মূল বক্তব্য হলো, প্রচলিত এনসেম্বলিং পদ্ধতির তুলনায় এই কৌশলটি কম্পিউটেশনাল দক্ষতা বজায় রেখেই জটিল সমস্যা সমাধানে গুণগত মান উল্লেখযোগ্যভাবে বৃদ্ধি করে।

প্রযুক্তিগতভাবে, OpenDeepThink কয়েকটি স্বতন্ত্র যুক্তিধারা তৈরি করে, যার প্রতিটি একটি চূড়ান্ত সিদ্ধান্তে পৌঁছায়। এরপর ফলাফলগুলো র‍্যাঙ্ক এবং একত্রিত করার জন্য একটি ব্র্যাডলি-টেরি মডেল ব্যবহার করা হয়, যা আগে থেকেই উত্তরের 'সেরা-বনাম-নিকৃষ্ট' জোড়গুলোর ওপর প্রশিক্ষিত। সাধারণ মেজরিটি ভোটিং বা লজিক অ্যাভারেজিংয়ের বিপরীতে এই পদ্ধতি প্রতিটি যুক্তির আপেক্ষিক শক্তি বিবেচনা করে, যা বিশেষ করে পরস্পরবিরোধী মধ্যবর্তী ধাপগুলোর ক্ষেত্রে অত্যন্ত গুরুত্বপূর্ণ।

লেখকরা গাণিতিক বেঞ্চমার্ক এবং লজিক্যাল ইনফারেন্স টাস্কের ওপর এর কার্যকারিতা প্রদর্শন করেছেন। GSM8K-তে বেস মডেলের তুলনায় ফলাফল ৪-৫ পয়েন্ট বেড়েছে এবং MATH-এর মতো আরও জটিল ডেটাসেটে এই ব্যবধান ৭ পয়েন্ট পর্যন্ত পৌঁছেছে। মজার বিষয় হলো, সমান্তরাল যুক্তিধারার সংখ্যা আটের মধ্যে সীমাবদ্ধ রাখা হয়েছে, যার ফলে ইনফারেন্স খরচ যুক্তিসঙ্গত সীমার মধ্যেই থাকে।

তবে এর মূল্যায়ন পদ্ধতি নিয়ে কিছু প্রশ্ন থেকে যায়। লেখকরা ব্র্যাডলি-টেরি প্রশিক্ষণের জন্য অভ্যন্তরীণ জোড় ব্যবহার করেছেন, কিন্তু এই জোড়গুলো কীভাবে তৈরি করা হয়েছে বা বাস্তব ত্রুটির বিন্যাসের তুলনায় এগুলো কতটা প্রতিনিধিত্বমূলক, তার বিস্তারিত ব্যাখ্যা দেননি। স্বতন্ত্র ডেটাসেটে বাহ্যিক যাচাইকরণের অভাব এই ফলাফলের সার্বজনীনতা সম্পর্কে সন্দেহের অবকাশ রাখে।

ওয়াং এবং অন্যদের সেলফ-কনসিস্টেন্সি এবং পরবর্তী সময়ের ট্রি-অফ-থটস-এর মতো কাজের তুলনায় OpenDeepThink একটি মধ্যপন্থা অবলম্বন করেছে। এটি ট্রি-সার্চের মতো ব্যয়বহুল কম্পিউটেশন এড়িয়ে চলে এবং সাধারণ ভোটিংয়ের চেয়ে সূক্ষ্মতর র‍্যাঙ্কিং মেকানিজম ব্যবহার করে। এটি অনেকটা আরএলএইচএফ ধারণার কাছাকাছি হলেও এতে পূর্ণাঙ্গ রিওয়ার্ড লার্নিং সাইকেলের প্রয়োজন হয় না।

এই গবেষণার একটি গুরুত্বপূর্ণ দিক হলো আনুপাতিক খরচ না বাড়িয়েই সমান্তরাল যুক্তিপ্রক্রিয়াকে বড় পরিসরে নিয়ে যাওয়ার সম্ভাবনা। বিস্তৃত পরিসরের কাজে যদি এই পদ্ধতি সফল প্রমাণিত হয়, তবে এটি প্রোডাকশন সিস্টেমে ইনফারেন্স-টাইম কম্পিউটের ধারণা বদলে দিতে পারে, যেখানে টোকেন বাজেট সীমিত থাকে।

প্রশিক্ষণের জন্য ব্যবহৃত জোড়গুলোর চেয়ে ভিন্ন কোনো ত্রুটির বিন্যাস দেখা দিলে ব্র্যাডলি-টেরি অ্যাগ্রিগেশন কতটা স্থিতিশীল থাকবে, তা এখনও অস্পষ্ট। পরবর্তী গবেষণাগুলো সম্ভবত কোড জেনারেশন এবং বহুভাষিক টাস্কগুলোতে এই পদ্ধতির কার্যকারিতা পরীক্ষা করবে এবং প্রসেস রিওয়ার্ড মডেলের মতো বিকল্প কৌশলের সঙ্গে এর তুলনা করবে।

পরিশেষে, OpenDeepThink এটিই প্রমাণ করে যে আর্কিটেকচারে কোনো আমূল পরিবর্তন না এনেও বিদ্যমান যুক্তিধারাগুলোর বুদ্ধিমত্তাপূর্ণ সমন্বয়ের মাধ্যমে যুক্তিপ্রক্রিয়ার মান উল্লেখযোগ্যভাবে উন্নত করা সম্ভব।

4 দৃশ্য

উৎসসমূহ

  • OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।