MemQ: डेटा प्रोवेनेंस ग्राफ़ पर आधारित स्व-विकसित मेमोरी एजेंटों में Q-लर्निंग का एकीकरण

17:06, 12 मई

द्वारा संपादित: Aleksandr Lytviak

MemQ: डेटा प्रोवेनेंस ग्राफ़ पर आधारित स्व-विकसित मेमोरी एजेंटों में Q-लर्निंग का एकीकरण-1

मई 2025 में arXiv पर MemQ प्रणाली का वर्णन करने वाला एक शोध पत्र प्रकाशित हुआ, जो 'डायरेक्टेड एसाइक्लिक प्रोवेनेंस ग्राफ़' (provenance DAGs) का उपयोग करके Q-लर्निंग को स्व-विकसित होने वाले मेमोरी एजेंटों के साथ जोड़ता है। शोधकर्ता एक ऐसे तंत्र का प्रस्ताव करते हैं जिसमें एजेंट न केवल तथ्यों को संग्रहीत करता है, बल्कि डेटा और निर्णयों के उद्गम को ट्रैक करने वाली ग्राफ़ संरचनाओं के माध्यम से क्रियाओं के मूल्यों को गतिशील रूप से अपडेट करता है। यह विशेषता MemQ को LLM एजेंटों में मेमोरी के पारंपरिक दृष्टिकोणों से अलग करती है, जहाँ भंडारण आमतौर पर बिना किसी स्पष्ट कार्य-कारण संबंध के वेक्टर डेटाबेस तक सीमित होता है।

तकनीकी रूप से MemQ मेमोरी को एक प्रोवेनेंस DAG के रूप में प्रस्तुत करता है, जहाँ नोड्स स्थितियों और क्रियाओं के अनुरूप होते हैं और किनारे उनके उद्गम की निर्भरता को दर्शाते हैं। यहाँ Q-लर्निंग को किसी सपाट तालिका के बजाय ग्राफ़ पर लागू किया जाता है: Q-वैल्यू का अपडेट DAG की टोपोलॉजी को ध्यान में रखकर किया जाता है, जिससे एजेंट उद्गम पथों के माध्यम से दीर्घकालिक परिणामों पर विचार कर पाता है। लेखक मल्टी-स्टेप रीजनिंग और त्रुटि ट्रैकिंग से संबंधित बेंचमार्क पर सुधार की रिपोर्ट करते हैं, हालाँकि वे ग्राफ़ घनत्व के कन्वर्जेंस पर पड़ने वाले प्रभाव के बारे में विस्तृत एब्लेशन अध्ययन प्रदान नहीं करते हैं।

इस शोध की प्रयोग पद्धति कुछ सवाल खड़े करती है। मूल्यांकन मुख्य रूप से नियंत्रित डेटा उद्गम वाले सिंथेटिक कार्यों पर किया गया था, जिससे DAG बनाना तो आसान हो जाता है, लेकिन वास्तविक और शोर-शराबे वाले स्रोतों के साथ इसकी स्केलेबिलिटी का प्रश्न अनुत्तरित रह जाता है। ग्राफ न्यूरल नेटवर्क या 'न्यूरल ट्यूरिंग मशीन' और 'डिफरेंशिएबल न्यूरल कंप्यूटर' जैसी डिफरेंशिएबल मेमोरी संरचनाओं का उपयोग करने वाले दृष्टिकोणों के साथ तुलना का अभाव है। इस कारण यह आकलन करना कठिन हो जाता है कि मेमोरी को व्यवस्थित करने के अन्य तरीकों की तुलना में विशेष रूप से DAG पर Q-लर्निंग क्या लाभ प्रदान करती है।

पिछले कार्यों के संदर्भ में, MemQ 'चेन-ऑफ-थॉट' और 'ट्री-ऑफ-थॉट्स' पर डीपमाइंड और ओपनएआई के शोध में प्रस्तुत रीजनिंग के लिए रिइंफोर्समेंट लर्निंग के विचारों को विकसित करता है। हालाँकि, उन दृष्टिकोणों के विपरीत जहाँ बिना स्थायी मेमोरी के रीजनिंग ट्री में खोज की जाती है, MemQ एजेंट के पूरे जीवनकाल में ग्राफ़ को सुरक्षित रखता है और उसे विकसित करता है। यह प्रणाली इसे 'लाइफलॉन्ग लर्निंग' और 'कंटीन्यूअल RL' शोध के करीब लाती है, लेकिन मूल्य अपडेट के लिए मुख्य संकेत के रूप में प्रोवेनेंस पर जोर देने के मामले में यह उनसे अलग है।

समानांतर विकासों के साथ तुलना करने पर दिलचस्प मतभेद दिखाई देते हैं। जहाँ लैंगग्राफ और ऑटोजेन जैसे प्रोजेक्ट्स स्टेटिक ग्राफ़ के माध्यम से एजेंटों के समन्वय पर ध्यान केंद्रित करते हैं, वहीं MemQ ग्राफ़ को गतिशील और Q-अपडेट्स के माध्यम से सीखने योग्य बनाता है। इसका अर्थ यह हो सकता है कि यह नए कार्यों के प्रति अधिक स्वाभाविक रूप से अनुकूलित हो सकता है, लेकिन साथ ही ग्राफ़ के तेज़ी से बढ़ने और पुराने रास्तों के संचय के साथ अस्थिरता का जोखिम भी बढ़ जाता है।

अनुसंधान समुदाय के लिए MemQ यह अध्ययन करने का अवसर खोलता है कि संरचित मेमोरी एजेंट प्रणालियों में सामान्यीकरण को कैसे प्रभावित करती है। यदि DAG का आकार बढ़ने पर भी यह दृष्टिकोण टिकाऊ साबित होता है, तो यह उन जटिल, बहु-चरणीय कार्यों के लिए एजेंट डिजाइन को बदल सकता है जहाँ सूचना के स्रोतों को ट्रैक करना आवश्यक होता है। वहीं यह अभी भी स्पष्ट नहीं है कि वास्तविक परिदृश्यों में Q-लर्निंग विरल पुरस्कारों को कितनी प्रभावी ढंग से संभालती है, जहाँ प्रोवेनेंस-ग्राफ़ बहुत तेज़ी से फैलता है।

MemQ के योगदान के मूल्यांकन के लिए परिणामों का स्वतंत्र सत्यापन और पुनरुत्पादन महत्वपूर्ण होगा। समुदाय को यह जांचना होगा कि क्या ग्राफ़ संरचना वास्तव में सरल मेमोरी तंत्रों की तुलना में स्थायी लाभ प्रदान करती है, और व्यावहारिक अनुप्रयोगों पर अचक्रीयता की आवश्यकता क्या सीमाएं लगाती है। इस क्षेत्र के आगामी शोध कार्यों में संभवतः वास्तविक डेटा और दीर्घकालिक इंटरैक्शन वाले बेंचमार्क पर MemQ जैसी प्रणालियों का परीक्षण किया जाएगा।

इस प्रकार MemQ यह दर्शाता है कि क्लासिक Q-लर्निंग को प्रोवेनेंस ग्राफ़ के साथ एकीकृत करने से एजेंटों को एक अधिक सार्थक और विकसित होने वाली मेमोरी मिल सकती है, हालाँकि इस दृष्टिकोण के व्यावहारिक मूल्य को अभी भी अधिक वास्तविक स्थितियों में पुष्ट करने की आवश्यकता है।

6 दृश्य

स्रोतों

arXiv:2605.08374

इस विषय पर अधिक लेख पढ़ें:

24 मई

मानवीय तकनीकें हमेशा अस्तित्व के समग्र तंत्र को ही प्रतिबिंबित करती हैं

21 मई

GPT-5.5 Instant: कैसे OpenAI का अपडेटेड आर्किटेक्चर उत्तर जनरेट करने की प्रक्रिया को बेहतर बनाता है

21 मई

NVIDIA ने ओपन किए 'इजिंग मॉडल्स': सांख्यिकीय भौतिकी कैसे बदल रही है AI में क्वांटम एरर करेक्शन का नजरिया

क्या आपने कोई गलती या अशुद्धि पाई?हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।