W maju 2025 roku w serwisie arXiv opublikowano pracę opisującą system MemQ, który łączy technikę Q-learningu z agentami zdolnymi do samodzielnej ewolucji własnej pamięci przy użyciu skierowanych grafów acyklicznych pochodzenia (provenance DAGs). Autorzy proponują mechanizm, w którym agent nie ogranicza się do prostego przechowywania faktów, lecz dynamicznie aktualizuje wartości działań poprzez struktury grafowe śledzące genezę danych i decyzji. Rozwiązanie to odróżnia MemQ od tradycyjnych podejść do pamięci w agentach LLM, gdzie przechowywanie informacji sprowadza się zazwyczaj do baz wektorowych bez wyraźnego uwzględnienia powiązań przyczynowo-skutkowych.
Od strony technicznej MemQ przedstawia pamięć jako provenance DAG, w którym węzły odpowiadają stanom i akcjom, a krawędzie – zależnościom pochodzenia. Q-learning nie jest stosowany do płaskiej tabeli, lecz bezpośrednio do grafu: aktualizacja wartości Q odbywa się z uwzględnieniem topologii DAG, co pozwala agentowi brać pod uwagę długofalowe skutki poprzez ścieżki pochodzenia. Autorzy informują o poprawie wyników w benchmarkach związanych z wielokrokowym rozumowaniem i śledzeniem błędów, jednak nie przedstawiają szczegółowych badań ablacyjnych dotyczących wpływu gęstości grafu na zbieżność algorytmu.
Metodologia przeprowadzonych eksperymentów budzi jednak pewne wątpliwości. Ocena została dokonana głównie na zadaniach syntetycznych o kontrolowanym pochodzeniu danych, co ułatwia budowę grafów DAG, ale pozostawia otwartą kwestię skalowalności w przypadku realnych, zaszumionych źródeł. Brakuje porównań z podejściami wykorzystującymi grafowe sieci neuronowe lub różniczkowalne struktury pamięci, takie jak Neural Turing Machines czy Differentiable Neural Computers. Utrudnia to ocenę, w jakim stopniu to właśnie Q-learning na grafach DAG daje przewagę w stosunku do innych metod strukturyzacji pamięci.
W kontekście wcześniejszych prac MemQ rozwija idee uczenia ze wzmocnieniem dla wnioskowania, zaprezentowane w badaniach DeepMind i OpenAI nad łańcuchami (chain-of-thought) oraz drzewami myśli (tree-of-thoughts). Jednak w przeciwieństwie do tych rozwiązań, w których przeszukiwanie odbywa się w obrębie drzewa rozumowania bez stałej pamięci, MemQ zachowuje i rozwija graf przez cały czas funkcjonowania agenta. Przybliża to system do nurtów lifelong learning i continual RL, choć różni się od nich skupieniem na pochodzeniu danych jako kluczowym sygnale do aktualizacji wartości.
Porównanie z równolegle rozwijanymi projektami wskazuje na interesujące różnice. Podczas gdy rozwiązania takie jak LangGraph czy AutoGen koncentrują się na orkiestracji agentów poprzez statyczne grafy, MemQ czyni graf dynamicznym i zdolnym do nauki poprzez aktualizacje Q. Może to oznaczać naturalniejszą adaptację do nowych zadań, ale jednocześnie zwiększa ryzyko niestabilności przy gwałtownym rozroście grafu i gromadzeniu się przestarzałych ścieżek.
Dla społeczności badawczej MemQ otwiera możliwość analizy tego, jak strukturyzowana pamięć wpływa na generalizację w systemach agentowych. Jeśli podejście to okaże się stabilne przy wzroście rozmiaru grafów DAG, może to zmienić sposób projektowania agentów dedykowanych złożonym, wieloetapowym zadaniom wymagającym śledzenia źródeł informacji. Jednocześnie pozostaje niejasne, jak skutecznie Q-learning radzi sobie z rzadkimi nagrodami w rzeczywistych scenariuszach, gdzie graf pochodzenia szybko się rozrasta.
Kluczowe dla oceny wkładu MemQ będą niezależna weryfikacja oraz reprodukcja wyników. Społeczność musi sprawdzić, czy struktura grafowa rzeczywiście zapewnia trwałą przewagę nad prostszymi mechanizmami pamięci oraz jakie ograniczenia nakłada wymóg acykliczności w zastosowaniach praktycznych. Kolejne prace w tej dziedzinie prawdopodobnie będą testować systemy podobne do MemQ na benchmarkach z realnymi danymi i długoterminowymi interakcjami.
Tym samym MemQ pokazuje, że integracja klasycznego Q-learningu z grafami pochodzenia może nadać agentom bardziej sensowną i ewoluującą pamięć, choć praktyczna wartość tego podejścia wymaga jeszcze potwierdzenia w bardziej realistycznych warunkach.




