Mayıs 2025'te arXiv'de yayımlanan bir çalışma, Q-öğrenmeyi yönlendirilmiş asiklik kaynak grafları (provenance DAGs) kullanarak kendi belleğini evrimleştirebilen ajanlarla birleştiren MemQ sistemini tanıtıyor. Yazarlar, ajanın sadece gerçekleri depolamakla kalmayıp, veri ve kararların kaynağını izleyen graf yapıları aracılığıyla eylem değerlerini dinamik olarak güncellediği bir mekanizma öneriyor. Bu durum, depolamanın genellikle nedensellik ilişkilerini açıkça hesaba katmadan vektör veri tabanlarına indirgendiği LLM ajanlarındaki geleneksel bellek yaklaşımlarından MemQ'yu ayırıyor.
Teknik olarak MemQ, belleği düğümlerin durum ve eylemlere, kenarların ise kaynak bağımlılıklarına karşılık geldiği bir kaynak DAG'ı olarak temsil ediyor. Q-öğrenme düz bir tablo yerine grafa uygulanıyor: Q-değerlerinin güncellenmesi DAG topolojisi dikkate alınarak yapılıyor ve bu da ajanın kaynak yolları üzerinden uzun vadeli sonuçları hesaba katmasına olanak tanıyor. Yazarlar, çok adımlı muhakeme ve hata takibiyle ilgili kıyaslamalarda iyileşme olduğunu bildiriyor; ancak graf yoğunluğunun yakınsama üzerindeki etkisine dair ayrıntılı ablasyon çalışmaları sunmuyorlar.
Deney metodolojisi bazı soru işaretleri uyandırıyor. Değerlendirme esas olarak veri kaynağının kontrol edildiği sentetik görevler üzerinde yapılmış; bu durum DAG oluşturmayı kolaylaştırsa da gerçek dünyadaki gürültülü kaynaklarda ölçeklenebilirlik sorusunu cevapsız bırakıyor. Graf sinir ağlarını veya Neural Turing Machines veya Differentiable Neural Computers gibi türetilebilir bellek yapılarını kullanan yaklaşımlarla karşılaştırmalar eksik. Bu eksiklik, DAG üzerinde Q-öğrenmenin diğer bellek yapılandırma yöntemlerine kıyasla tam olarak ne kadar avantaj sağladığını değerlendirmeyi zorlaştırıyor.
Önceki çalışmalar bağlamında MemQ, DeepMind ve OpenAI'ın "chain-of-thought" ve "tree-of-thoughts" çalışmalarında sunulan muhakeme için pekiştirmeli öğrenme fikirlerini geliştiriyor. Ancak aramanın kalıcı bir bellek olmadan bir muhakeme ağacı üzerinden yapıldığı bu yaklaşımların aksine MemQ, ajanın tüm ömrü boyunca grafı koruyor ve evrimleştiriyor. Bu, sistemi yaşam boyu öğrenme ve sürekli RL araştırmalarına yaklaştırıyor, ancak değer güncellemeleri için temel sinyal olarak kaynağa odaklanmasıyla onlardan ayrılıyor.
Paralel geliştirmelerle yapılan karşılaştırma ilginç farklılıklar ortaya koyuyor. LangGraph ve AutoGen gibi projeler ajanların statik graflar üzerinden orkestrasyonuna odaklanırken MemQ, grafı Q-güncellemeleri aracılığıyla dinamik ve eğitilebilir hale getiriyor. Bu, yeni görevlere daha doğal bir adaptasyon anlamına gelebilir ancak aynı zamanda grafın hızlı büyümesi ve güncelliğini yitirmiş yolların birikmesiyle istikrarsızlık riskini de artırıyor.
MemQ, araştırma topluluğu için yapılandırılmış belleğin ajan sistemlerinde genelleştirmeyi nasıl etkilediğini inceleme fırsatı sunuyor. Yaklaşım, DAG boyutu arttığında dirençli çıkarsa, bilgi kaynaklarının takibi gereken karmaşık ve çok aşamalı görevlere odaklanan ajanların tasarımını değiştirebilir. Aynı zamanda, veri kaynağı grafının hızla büyüdüğü gerçek senaryolarda Q-öğrenmenin seyrek ödüllerle ne kadar etkili başa çıkacağı belirsizliğini koruyor.
Bağımsız doğrulama ve sonuçların yeniden üretilmesi, MemQ'nun katkısını değerlendirmek için kritik öneme sahip olacak. Topluluk, graf yapısının daha basit bellek mekanizmalarına göre gerçekten sürdürülebilir bir avantaj sağlayıp sağlamadığını ve asiklik gereksiniminin pratik uygulamalara ne gibi kısıtlamalar getirdiğini test etmek zorunda. Bu alandaki gelecekteki çalışmaların, MemQ benzeri sistemleri gerçek veriler ve uzun vadeli etkileşimler içeren kıyaslamalar üzerinde test etmesi muhtemel görünüyor.
Sonuç olarak MemQ, klasik Q-öğrenmenin kaynak graflarıyla entegrasyonunun ajanlara daha anlamlı ve evrimleşen bir bellek kazandırabileceğini gösteriyor; ancak bu yaklaşımın pratik değeri henüz daha gerçekçi koşullarda doğrulanmaya muhtaç.




