मई 2025 में arXiv पर MemQ प्रणाली का वर्णन करने वाला एक शोध पत्र प्रकाशित हुआ, जो 'डायरेक्टेड एसाइक्लिक प्रोवेनेंस ग्राफ़' (provenance DAGs) का उपयोग करके Q-लर्निंग को स्व-विकसित होने वाले मेमोरी एजेंटों के साथ जोड़ता है। शोधकर्ता एक ऐसे तंत्र का प्रस्ताव करते हैं जिसमें एजेंट न केवल तथ्यों को संग्रहीत करता है, बल्कि डेटा और निर्णयों के उद्गम को ट्रैक करने वाली ग्राफ़ संरचनाओं के माध्यम से क्रियाओं के मूल्यों को गतिशील रूप से अपडेट करता है। यह विशेषता MemQ को LLM एजेंटों में मेमोरी के पारंपरिक दृष्टिकोणों से अलग करती है, जहाँ भंडारण आमतौर पर बिना किसी स्पष्ट कार्य-कारण संबंध के वेक्टर डेटाबेस तक सीमित होता है।
तकनीकी रूप से MemQ मेमोरी को एक प्रोवेनेंस DAG के रूप में प्रस्तुत करता है, जहाँ नोड्स स्थितियों और क्रियाओं के अनुरूप होते हैं और किनारे उनके उद्गम की निर्भरता को दर्शाते हैं। यहाँ Q-लर्निंग को किसी सपाट तालिका के बजाय ग्राफ़ पर लागू किया जाता है: Q-वैल्यू का अपडेट DAG की टोपोलॉजी को ध्यान में रखकर किया जाता है, जिससे एजेंट उद्गम पथों के माध्यम से दीर्घकालिक परिणामों पर विचार कर पाता है। लेखक मल्टी-स्टेप रीजनिंग और त्रुटि ट्रैकिंग से संबंधित बेंचमार्क पर सुधार की रिपोर्ट करते हैं, हालाँकि वे ग्राफ़ घनत्व के कन्वर्जेंस पर पड़ने वाले प्रभाव के बारे में विस्तृत एब्लेशन अध्ययन प्रदान नहीं करते हैं।
इस शोध की प्रयोग पद्धति कुछ सवाल खड़े करती है। मूल्यांकन मुख्य रूप से नियंत्रित डेटा उद्गम वाले सिंथेटिक कार्यों पर किया गया था, जिससे DAG बनाना तो आसान हो जाता है, लेकिन वास्तविक और शोर-शराबे वाले स्रोतों के साथ इसकी स्केलेबिलिटी का प्रश्न अनुत्तरित रह जाता है। ग्राफ न्यूरल नेटवर्क या 'न्यूरल ट्यूरिंग मशीन' और 'डिफरेंशिएबल न्यूरल कंप्यूटर' जैसी डिफरेंशिएबल मेमोरी संरचनाओं का उपयोग करने वाले दृष्टिकोणों के साथ तुलना का अभाव है। इस कारण यह आकलन करना कठिन हो जाता है कि मेमोरी को व्यवस्थित करने के अन्य तरीकों की तुलना में विशेष रूप से DAG पर Q-लर्निंग क्या लाभ प्रदान करती है।
पिछले कार्यों के संदर्भ में, MemQ 'चेन-ऑफ-थॉट' और 'ट्री-ऑफ-थॉट्स' पर डीपमाइंड और ओपनएआई के शोध में प्रस्तुत रीजनिंग के लिए रिइंफोर्समेंट लर्निंग के विचारों को विकसित करता है। हालाँकि, उन दृष्टिकोणों के विपरीत जहाँ बिना स्थायी मेमोरी के रीजनिंग ट्री में खोज की जाती है, MemQ एजेंट के पूरे जीवनकाल में ग्राफ़ को सुरक्षित रखता है और उसे विकसित करता है। यह प्रणाली इसे 'लाइफलॉन्ग लर्निंग' और 'कंटीन्यूअल RL' शोध के करीब लाती है, लेकिन मूल्य अपडेट के लिए मुख्य संकेत के रूप में प्रोवेनेंस पर जोर देने के मामले में यह उनसे अलग है।
समानांतर विकासों के साथ तुलना करने पर दिलचस्प मतभेद दिखाई देते हैं। जहाँ लैंगग्राफ और ऑटोजेन जैसे प्रोजेक्ट्स स्टेटिक ग्राफ़ के माध्यम से एजेंटों के समन्वय पर ध्यान केंद्रित करते हैं, वहीं MemQ ग्राफ़ को गतिशील और Q-अपडेट्स के माध्यम से सीखने योग्य बनाता है। इसका अर्थ यह हो सकता है कि यह नए कार्यों के प्रति अधिक स्वाभाविक रूप से अनुकूलित हो सकता है, लेकिन साथ ही ग्राफ़ के तेज़ी से बढ़ने और पुराने रास्तों के संचय के साथ अस्थिरता का जोखिम भी बढ़ जाता है।
अनुसंधान समुदाय के लिए MemQ यह अध्ययन करने का अवसर खोलता है कि संरचित मेमोरी एजेंट प्रणालियों में सामान्यीकरण को कैसे प्रभावित करती है। यदि DAG का आकार बढ़ने पर भी यह दृष्टिकोण टिकाऊ साबित होता है, तो यह उन जटिल, बहु-चरणीय कार्यों के लिए एजेंट डिजाइन को बदल सकता है जहाँ सूचना के स्रोतों को ट्रैक करना आवश्यक होता है। वहीं यह अभी भी स्पष्ट नहीं है कि वास्तविक परिदृश्यों में Q-लर्निंग विरल पुरस्कारों को कितनी प्रभावी ढंग से संभालती है, जहाँ प्रोवेनेंस-ग्राफ़ बहुत तेज़ी से फैलता है।
MemQ के योगदान के मूल्यांकन के लिए परिणामों का स्वतंत्र सत्यापन और पुनरुत्पादन महत्वपूर्ण होगा। समुदाय को यह जांचना होगा कि क्या ग्राफ़ संरचना वास्तव में सरल मेमोरी तंत्रों की तुलना में स्थायी लाभ प्रदान करती है, और व्यावहारिक अनुप्रयोगों पर अचक्रीयता की आवश्यकता क्या सीमाएं लगाती है। इस क्षेत्र के आगामी शोध कार्यों में संभवतः वास्तविक डेटा और दीर्घकालिक इंटरैक्शन वाले बेंचमार्क पर MemQ जैसी प्रणालियों का परीक्षण किया जाएगा।
इस प्रकार MemQ यह दर्शाता है कि क्लासिक Q-लर्निंग को प्रोवेनेंस ग्राफ़ के साथ एकीकृत करने से एजेंटों को एक अधिक सार्थक और विकसित होने वाली मेमोरी मिल सकती है, हालाँकि इस दृष्टिकोण के व्यावहारिक मूल्य को अभी भी अधिक वास्तविक स्थितियों में पुष्ट करने की आवश्यकता है।




