OpenDeepThink: Bradley-Terry Agregasyonu Büyük Modellerde Paralel Muhakemeyi Nasıl Dönüştürüyor?

Düzenleyen: Aleksandr Lytviak

OpenDeepThink: Bradley-Terry Agregasyonu Büyük Modellerde Paralel Muhakemeyi Nasıl Dönüştürüyor?-1
OpenDeepThink: Bradley--Terry Toplamasıyla Paralel Akıl Yürütme (arXiv:2605.15177)

Mayıs 2025'te arXiv'de yayımlanan OpenDeepThink başlıklı çalışma, Bradley-Terry agregasyon mekanizması aracılığıyla paralel muhakemeye yeni bir yaklaşım getiriyor. Yazarlar, birden fazla muhakeme zincirinin doğrudan pekiştirmeli öğrenme gerektirmeden rekabet etmesine ve birleşmesine olanak tanıyan bir yöntem sunuyor. Makalenin temel tezi, bu yaklaşımın karmaşık görevlerde performansı gözle görülür şekilde artırırken, geleneksel ansambl yöntemlerine kıyasla işlemsel verimliliği koruduğu yönünde.

Teknik olarak OpenDeepThink, her biri nihai bir cevapla sonuçlanan birden fazla bağımsız muhakeme yolu oluşturuyor. Ardından, sonuçları sıralamak ve birleştirmek için "en iyi - en kötü" cevap çiftleri üzerinde eğitilmiş bir Bradley-Terry modeli uygulanıyor. Klasik çoğunluk oylaması veya basit logit ortalamasının aksine bu yöntem, her bir yolun göreceli gücünü hesaba katıyor; bu da özellikle çelişkili ara adımlar olduğunda büyük önem taşıyor.

Yazarlar sonuçları matematiksel kıyaslamalar ve mantıksal çıkarım görevleri üzerinden ortaya koyuyor. GSM8K verisetinde temel modele kıyasla yaklaşık 4-5 puanlık bir artış gözlenirken, MATH gibi daha zorlu setlerde bu fark 7 puana kadar çıkıyor. Ayrıca paralel zincir sayısının sekiz ile sınırlandırılması, çıkarım maliyetlerinin makul düzeyde tutulmasını sağlıyor.

Değerlendirme metodolojisi bazı soru işaretlerini de beraberinde getiriyor. Yazarlar Bradley-Terry eğitiminde dahili veri çiftlerini kullansa da bu çiftlerin nasıl oluşturulduğuna ve gerçek hata dağılımlarını ne ölçüde temsil ettiğine dair ayrıntılı bir açıklama sunmuyor. Bağımsız verilerle dış doğrulanmanın eksikliği, sonuçların genellenebilirliği konusunda şüphe uyandırıyor.

Wang ve ark. tarafından geliştirilen Self-Consistency ve daha sonraki Tree-of-Thoughts yaklaşımlarıyla kıyaslandığında, OpenDeepThink ara bir konumda yer alıyor. Yöntem, ağaç tabanlı aramalarda görülen hesaplama yükündeki katlanarak artıştan kaçınıyor ancak basit oylamadan daha hassas bir sıralama mekanizması kullanıyor. Bu durum, tam bir ödül odaklı eğitim döngüsüne ihtiyaç duymadan çalışmayı RLHF fikirlerine yaklaştırıyor.

Çalışmanın önemli bir sonucu, paralel muhakemenin maliyetleri orantısız şekilde artırmadan ölçeklendirilebilmesi oluyor. Eğer yöntem daha geniş bir görev yelpazesinde doğrulanırsa, token bütçesinin kısıtlı olduğu üretim sistemlerinde çıkarım süresi hesaplama yaklaşımlarını kökten değiştirebilir.

Bradley-Terry agregasyonunun, eğitim çiftlerinden belirgin şekilde sapan hata dağılımları karşısında ne kadar dirençli olduğu henüz netleşmiş değil. Gelecekteki çalışmaların yöntemin kod üretimi ve çok dilli görevlere aktarılabilirliğini test etmesi ve Process Reward Models gibi alternatif tekniklerle karşılaştırması bekleniyor.

Sonuç olarak OpenDeepThink, mimaride köklü değişiklikler yapmadan bile mevcut muhakeme yollarının daha akıllıca birleştirilmesiyle kalitenin önemli ölçüde artırılabileceğini kanıtlıyor.

4 Görüntülenme

Kaynaklar

  • OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

Bir hata veya yanlışlık buldunuz mu?Yorumlarınızı en kısa sürede değerlendireceğiz.