OpenDeepThink: hoe Bradley-Terry-aggregatie parallel redeneren in grote modellen transformeert

Bewerkt door: Aleksandr Lytviak

OpenDeepThink: hoe Bradley-Terry-aggregatie parallel redeneren in grote modellen transformeert-1
OpenDeepThink: Parallel denken via Bradley--Terry-aggregatie (arXiv:2605.15177)

In mei 2025 verscheen op arXiv het onderzoek OpenDeepThink, waarin een nieuwe methode voor parallel redeneren via een Bradley-Terry-aggregatiemechanisme wordt voorgesteld. De auteurs presenteren een techniek waarmee meerdere redeneerpaden kunnen concurreren en worden samengevoegd zonder expliciete reinforcement learning. De kernboodschap van het artikel is dat deze aanpak de kwaliteit bij complexe taken aanzienlijk verbetert, terwijl de rekenefficiëntie behouden blijft in vergelijking met traditionele ensemblemethode.

Technisch gezien bouwt OpenDeepThink verschillende onafhankelijke redeneertrajecten op, die elk eindigen met een definitief antwoord. Vervolgens wordt een Bradley-Terry-model toegepast, getraind op 'beste-slechtste' antwoordparen, om de resultaten te rangschikken en te aggregeren. In tegenstelling tot klassieke meerderheidsstemmingen of het simpelweg middelen van logits, houdt deze methode rekening met de relatieve kracht van elk traject, wat cruciaal is bij tegenstrijdige tussenstappen.

De auteurs tonen resultaten op wiskundige benchmarks en logische deductietaken. Op GSM8K bedraagt de winst ongeveer 4 tot 5 punten ten opzichte van het basismodel, terwijl bij complexere datasets zoals MATH het verschil oploopt tot 7 punten. Hierbij is het aantal parallelle paden beperkt tot acht, waardoor de kosten voor inferentie binnen redelijke grenzen blijven.

De evaluatiemethodologie roept echter vragen op. De auteurs gebruiken interne paren om de Bradley-Terry-functie te trainen, maar geven geen gedetailleerde beschrijving van hoe deze paren precies zijn gevormd en in hoeverre ze representatief zijn voor werkelijke foutverdelingen. Bij gebrek aan externe validatie op onafhankelijke data blijft er ruimte voor twijfel over de generaliseerbaarheid van de resultaten.

Vergeleken met eerder werk, zoals Self-Consistency van Wang et al. en latere benaderingen zoals Tree-of-Thoughts, neemt OpenDeepThink een tussenpositie in. Het vermijdt de exponentiële toename in rekenkracht die kenmerkend is voor tree-search, maar maakt gebruik van een subtieler rangschikkingsmechanisme dan een eenvoudige stemming. Dit brengt het dicht bij de concepten van RLHF, maar dan zonder de noodzaak van een volledige trainingscyclus met beloningen.

Een belangrijk gevolg van dit onderzoek is de mogelijkheid om parallel redeneren op te schalen zonder dat de kosten evenredig meestijgen. Als de methode standhoudt bij een breder scala aan taken, zou dit de aanpak van 'inference-time compute' in productiesystemen met beperkte tokenbudgetten kunnen veranderen.

Het blijft onduidelijk hoe robuust de Bradley-Terry-aggregatie is bij foutverdelingen die sterk afwijken van de trainingsparen. Toekomstig onderzoek zal waarschijnlijk de overdraagbaarheid van de methode naar codegeneratie en meertalige taken testen, evenals een vergelijking maken met alternatieve technieken zoals Process Reward Models.

Uiteindelijk laat OpenDeepThink zien dat de kwaliteit van redeneren aanzienlijk kan worden verhoogd door slimmere aggregatie van bestaande trajecten, zelfs zonder radicale architecturale wijzigingen.

4 Weergaven

Bronnen

  • OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

Heb je een fout of onnauwkeurigheid gevonden?We zullen je opmerkingen zo snel mogelijk in overweging nemen.