मई 2025 में arXiv पर 'OpenDeepThink' नामक एक शोध पत्र सामने आया, जिसमें Bradley-Terry एग्रीगेशन तंत्र के माध्यम से पैरेलल रीजनिंग (समांतर तर्क) के लिए एक नया दृष्टिकोण प्रस्तावित किया गया है। इसके लेखकों ने एक ऐसी पद्धति पेश की है जो बिना किसी स्पष्ट रीइन्फोर्समेंट लर्निंग (सुदृढीकरण अधिगम) के कई रीजनिंग श्रृंखलाओं को आपस में प्रतिस्पर्धा करने और एकीकृत होने की अनुमति देती है। इस लेख का मुख्य तर्क यह है कि पारंपरिक एन्सेम्बलिंग विधियों की तुलना में यह दृष्टिकोण कंप्यूटेशनल दक्षता बनाए रखते हुए जटिल कार्यों पर गुणवत्ता में उल्लेखनीय सुधार प्रदान करता है।
तकनीकी दृष्टि से, OpenDeepThink कई स्वतंत्र तर्क प्रक्षेपवक्र (रीजनिंग ट्राजेक्टरी) तैयार करता है, जिनमें से प्रत्येक एक अंतिम उत्तर पर समाप्त होता है। इसके बाद, परिणामों को रैंक और एकत्रित करने के लिए 'सर्वश्रेष्ठ-निकृष्ट' उत्तरों के जोड़ों पर प्रशिक्षित Bradley-Terry मॉडल का उपयोग किया जाता है। क्लासिक बहुमत मतदान (मैजॉरिटी वोटिंग) या सरल लॉगिट औसत के विपरीत, यह विधि प्रत्येक प्रक्षेपवक्र की सापेक्ष शक्ति को ध्यान में रखती है, जो विशेष रूप से तब महत्वपूर्ण होती है जब मध्यवर्ती चरणों में विरोधाभास मौजूद हो।
लेखकों ने गणितीय बेंचमार्क और लॉजिकल इन्फरेंस कार्यों पर इसके परिणामों का प्रदर्शन किया है। GSM8K पर, बेस मॉडल की तुलना में लगभग 4-5 अंकों की बढ़त देखी गई, जबकि MATH जैसे अधिक कठिन डेटासेट पर यह अंतर 7 अंकों तक पहुँच गया। वहीं, समानांतर श्रृंखलाओं की संख्या आठ तक सीमित रखी गई है, जिससे इन्फरेंस लागत को उचित सीमा के भीतर रखना संभव हो पाता है।
हालांकि, इसकी मूल्यांकन पद्धति कुछ सवाल भी खड़े करती है। लेखक Bradley-Terry को प्रशिक्षित करने के लिए आंतरिक जोड़ों (पेयर्स) का उपयोग करते हैं, लेकिन उन्होंने इस बात का विस्तृत विवरण नहीं दिया है कि ये जोड़े वास्तव में कैसे बनाए गए और वे वास्तविक त्रुटि वितरण का कितना प्रतिनिधित्व करते हैं। स्वतंत्र डेटा पर बाहरी सत्यापन की कमी इसके परिणामों की व्यापकता (जनरलाइज़ेबिलिटी) के बारे में संदेह की गुंजाइश छोड़ती है।
वांग एट अल. के 'सेल्फ-कंसिस्टेंसी' और बाद के 'ट्री-ऑफ-थॉट्स' जैसे पिछले शोधों की तुलना में, OpenDeepThink एक मध्यवर्ती स्थान पर है। यह ट्री सर्च की विशेषता वाली गणनाओं की अत्यधिक वृद्धि से बचता है, लेकिन सरल मतदान की तुलना में अधिक सूक्ष्म रैंकिंग तंत्र का उपयोग करता है। यह इसे RLHF (मानव फीडबैक से सुदृढीकरण अधिगम) के विचारों के करीब लाता है, लेकिन बिना पूर्ण रिवॉर्ड ट्रेनिंग चक्र की आवश्यकता के।
इस शोध का एक महत्वपूर्ण निष्कर्ष लागत में आनुपातिक वृद्धि के बिना पैरेलल रीजनिंग को स्केल करने की संभावना है। यदि यह पद्धति कार्यों की एक विस्तृत श्रृंखला पर खरी उतरती है, तो यह उन प्रोडक्शन सिस्टम में इन्फरेंस-टाइम कंप्यूट के प्रति दृष्टिकोण को बदल सकती है जहाँ टोकन बजट सीमित होता है।
यह अभी भी स्पष्ट नहीं है कि जब त्रुटि वितरण प्रशिक्षण जोड़ों से काफी भिन्न होता है, तो Bradley-Terry एग्रीगेशन कितना स्थिर रहता है। भविष्य के शोध संभवतः कोड जनरेशन और बहुभाषी कार्यों में इस पद्धति की सुवाह्यता (ट्रांसफ़रेबिलिटी) का परीक्षण करेंगे और इसकी तुलना प्रोसेस रिवॉर्ड मॉडल्स जैसी वैकल्पिक तकनीकों से करेंगे।
अंततः, OpenDeepThink यह दर्शाता है कि आर्किटेक्चर में बुनियादी बदलाव किए बिना भी, मौजूदा प्रक्षेपवक्रों के अधिक समझदारी भरे एकीकरण से तर्क की गुणवत्ता को काफी हद तक बढ़ाया जा सकता है।




