2025 年 5 月,arXiv 上發表的一項研究介紹了名為 MemQ 的系統,該系統透過有向無環來源圖(provenance DAGs)將 Q 學習與具備自我演進記憶能力的代理人相結合。作者提出了一種機制,使代理人不再僅是儲存事實,而是透過追蹤資料與決策來源的圖形結構,動態更新其行動價值。這使 MemQ 與傳統的大型語言模型(LLM)代理人記憶方法有所區別,後者的儲存通常僅限於向量資料庫,並未明確考量因果關係。
在技術層面上,MemQ 將記憶表達成來源 DAG,其中的節點對應於狀態與行動,而邊則代表來源間的依賴關係。Q 學習並非應用於扁平的表格,而是應用於圖形:Q 值的更新會考量 DAG 的拓撲結構,讓代理人能透過來源路徑評估長期後果。作者報告指出,該系統在多步推理與錯誤追蹤相關的基準測試中有所提升,但並未提供關於圖形密度對收斂性影響的詳細消融研究。
實驗方法論引發了一些疑問。評估主要在資料來源受控的合成任務上進行,雖然這簡化了 DAG 的構建,卻讓處理真實且具雜訊來源時的擴展性問題懸而未決。該研究缺乏與圖神經網路或可微分記憶結構(如神經圖靈機或可微分神經電腦)等方法的比較。這導致難以評估相較於其他記憶結構化方式,在 DAG 上進行 Q 學習究竟能帶來多少優勢。
就先前研究的脈絡而言,MemQ 發展了 DeepMind 與 OpenAI 在思維鏈(CoT)與思維樹(ToT)工作中提出的推理強化學習理念。然而,與這些在不具備永久記憶的推理樹上進行搜尋的方法不同,MemQ 在代理人的整個生命週期中持續儲存並演進該圖形。這使該系統更接近終身學習與持續強化學習的研究,但在強調將「來源」作為價值更新關鍵訊號方面則有所分歧。
與平行開發項目的比較顯示出有趣的差異。雖然 LangGraph 與 AutoGen 等專案著重於透過靜態圖來編排代理人,但 MemQ 則透過 Q 更新使圖形具備動態性與可學習性。這可能意味著能更自然地適應新任務,但同時也增加了圖形快速增長及過時路徑累積時產生不穩定性的風險。
對於研究社群而言,MemQ 開闢了研究結構化記憶如何影響代理系統泛化能力的可能。若此方法在 DAG 規模擴大時仍能保持強健,可能會改變針對複雜多階段任務(需追蹤資訊來源)的代理人設計。同時,在來源圖迅速擴張的真實情境中,Q 學習處理稀疏獎勵的有效性仍不明確。
獨立驗證與結果復現將是評估 MemQ 貢獻的關鍵。社群必須驗證圖形結構是否真能比更簡單的記憶機制提供持續優勢,以及無環性要求對實際應用造成的限制。該領域後續的研究可能會在具備真實數據與長期互動的基準測試中,對類 MemQ 系統進行測試。
綜上所述,MemQ 證明了將經典 Q 學習與來源圖結合,能賦予代理人更有意義且具演進性的記憶,但此方法的實際價值仍需在更現實的條件下進一步確認。




