OpenDeepThink : comment l'agrégation Bradley-Terry transforme le raisonnement parallèle dans les grands modèles de langage

Édité par : Aleksandr Lytviak

OpenDeepThink : comment l'agrégation Bradley-Terry transforme le raisonnement parallèle dans les grands modèles de langage-1
OpenDeepThink: raisonnement parallèle via l'agrégation Bradley--Terry (arXiv:2605.15177)

En mai 2025, une étude intitulée OpenDeepThink a été publiée sur arXiv, proposant une nouvelle approche du raisonnement parallèle basée sur le mécanisme d'agrégation Bradley-Terry. Les auteurs y présentent une méthode permettant à plusieurs chaînes de raisonnement de s'affronter et de converger sans recourir à un apprentissage par renforcement explicite. La thèse principale de l'article soutient que cette approche améliore significativement la qualité sur des tâches complexes, tout en préservant l'efficacité computationnelle par rapport aux méthodes d'ensemble traditionnelles.

Sur le plan technique, OpenDeepThink génère plusieurs trajectoires de raisonnement indépendantes, chacune aboutissant à une réponse finale. Un modèle Bradley-Terry, entraîné sur des paires de réponses de type « meilleure-pire », est ensuite appliqué pour classer et agréger les résultats obtenus. Contrairement au vote majoritaire classique ou à la simple moyenne des logis, cette méthode prend en compte la force relative de chaque trajectoire, un atout majeur en cas d'étapes intermédiaires contradictoires.

Les auteurs illustrent leurs résultats à l'aide de tests de référence mathématiques et de tâches d'inférence logique. Sur le benchmark GSM8K, l'augmentation atteint environ 4 à 5 points par rapport au modèle de base, tandis que sur des ensembles plus complexes comme MATH, l'écart grimpe à 7 points. Dans le même temps, le nombre de chaînes parallèles reste limité à huit, ce qui permet de maintenir les coûts d'inférence dans des limites raisonnables.

Néanmoins, la méthodologie d'évaluation soulève quelques interrogations. Les auteurs utilisent des paires internes pour l'entraînement du modèle Bradley-Terry, mais ne fournissent pas de description détaillée sur la formation de ces paires ni sur leur représentativité par rapport aux distributions d'erreurs réelles. L'absence de validation externe sur des données indépendantes laisse planer un doute quant à la capacité de généralisation de ces résultats.

Comparativement aux travaux précédents, tels que le Self-Consistency de Wang et al. ou les approches plus récentes de type Tree-of-Thoughts, OpenDeepThink occupe une position intermédiaire. Il évite la croissance exponentielle des calculs propre à la recherche arborescente tout en utilisant un mécanisme de classement plus fin qu'un simple vote. Cette approche se rapproche des concepts du RLHF, mais s'affranchit de la nécessité d'un cycle complet d'apprentissage avec récompense.

Une conséquence importante de ces travaux réside dans la possibilité de passer à l'échelle le raisonnement parallèle sans augmentation proportionnelle des coûts. Si cette méthode se confirme sur un éventail de tâches plus large, elle pourrait transformer l'approche du calcul au moment de l'inférence (inference-time compute) dans les systèmes de production où le budget de jetons est limité.

On ignore encore dans quelle mesure l'agrégation Bradley-Terry reste robuste lorsque la distribution des erreurs s'écarte fortement des paires d'entraînement. Les recherches futures devront probablement tester la transférabilité de la méthode à la génération de code et aux tâches multilingues, tout en la comparant à des techniques alternatives comme les Process Reward Models.

En définitive, OpenDeepThink démontre qu'il est possible d'accroître substantiellement la qualité du raisonnement sans modification radicale de l'architecture, grâce à une agrégation plus intelligente des trajectoires déjà existantes.

4 Vues

Sources

  • OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

Avez-vous trouvé une erreur ou une inexactitude ?Nous étudierons vos commentaires dans les plus brefs délais.