У травні 2025 року на arXiv з’явилася праця, що описує систему MemQ, яка поєднує Q-навчання з агентами, здатними до самостійної еволюції власної пам’яті за допомогою спрямованих ациклічних графів походження (provenance DAGs). Автори пропонують механізм, за якого агент не просто накопичує факти, а динамічно оновлює цінність дій крізь графові структури, що відстежують генезис даних і рішень. Це відрізняє MemQ від традиційних підходів до пам’яті в LLM-агентах, де зберігання зазвичай обмежується векторними базами без явного врахування причинно-наслідкових зв’язків.
Технічно MemQ представляє пам’ять як provenance DAG, де вузли відповідають станам і діям, а ребра — залежностям походження. Q-навчання застосовується не до пласкої таблиці, а безпосередньо до графа: оновлення Q-значень відбувається з урахуванням топології DAG, що дозволяє агенту зважати на довгострокові наслідки через шляхи походження. Автори повідомляють про поліпшення результатів на бенчмарках, пов’язаних із багатокроковим міркуванням та відстеженням помилок, проте не наводять детальних абляційних досліджень щодо впливу щільності графа на збіжність.
Методологія експериментів викликає певні запитання. Оцінювання проводилося переважно на синтетичних завданнях із контрольованим походженням даних, що спрощує побудову DAG, але залишає відкритим питання масштабованості при роботі з реальними, зашумленими джерелами. Відсутні порівняння з підходами, що використовують графові нейронні мережі або диференційовні структури пам’яті, такі як нейронні машини Тюрінга (Neural Turing Machines) або диференційовні нейронні комп’ютери (Differentiable Neural Computers). Це ускладнює оцінку того, яку саме перевагу надає Q-навчання на DAG порівняно з іншими способами структурування пам’яті.
У контексті попередніх робіт MemQ розвиває ідеї навчання з підкріпленням для логічного висновку, представлені в розробках DeepMind та OpenAI щодо «ланцюжка думок» (chain-of-thought) та «дерева думок» (tree-of-thoughts). Проте на відміну від цих підходів, де пошук здійснюється за деревом міркувань без постійної пам’яті, MemQ зберігає та розвиває граф протягом усього часу існування агента. Це зближує систему з дослідженнями у сфері безперервного навчання (lifelong learning) та континуального RL, але розходиться з ними в акценті на походженні даних як ключовому сигналі для оновлення цінностей.
Порівняння з паралельними розробками демонструє цікаві розбіжності. У той час як проєкти на кшталт LangGraph та AutoGen зосереджені на оркестрації агентів через статичні графи, MemQ робить граф динамічним і таким, що навчається через Q-оновлення. Це може означати більш природну адаптацію до нових завдань, проте водночас підвищує ризик нестабільності за умови швидкого розростання графа та накопичення застарілих шляхів.
Для дослідницької спільноти MemQ відкриває можливість вивчати вплив структурованої пам’яті на здатність агентних систем до узагальнення. Якщо підхід виявиться стійким до збільшення розміру DAG, це може змінити парадигму проєктування агентів, орієнтованих на складні багатоетапні завдання, що потребують відстеження джерел інформації. Водночас залишається незрозумілим, наскільки ефективно Q-навчання справляється з розрідженими нагородами в реальних сценаріях, де граф походження швидко збільшується.
Незалежна верифікація та відтворення результатів стануть ключовими для оцінки внеску MemQ. Спільноті належить перевірити, чи дійсно графова структура забезпечує стабільну перевагу над простішими механізмами пам’яті, та які обмеження накладає вимога ациклічності на практичне застосування. Наступні роботи в цій царині, ймовірно, випробовуватимуть системи на кшталт MemQ на бенчмарках із реальними даними та довготривалими взаємодіями.
Таким чином, MemQ демонструє, що інтеграція класичного Q-навчання з графами походження здатна надати агентам більш осмислену та еволюційну пам’ять, проте практична цінність цього підходу все ще потребує підтвердження в реалістичніших умовах.




