OpenDeepThink：Bradley-Terry 聚合机制如何重塑大模型的并行推理能力

14:52, 15 五月

编辑者： Aleksandr Lytviak

OpenDeepThink：Bradley-Terry 聚合机制如何重塑大模型的并行推理能力-1 — OpenDeepThink: 通过 Bradley--Terry 聚合的并行推理 (arXiv:2605.15177)

2025年5月，arXiv上发布了一项名为OpenDeepThink的研究，提出了一种通过Bradley-Terry聚合机制实现并行推理的新方案。作者展示了一种无需显式强化学习，即可让多条推理链相互竞争并融合的技术。该论文的核心观点是，这种方法在保持计算效率优于传统集成方法的同时，能显著提升处理复杂任务的性能。

在技术层面，OpenDeepThink会构建多条独立的推理轨迹，每条轨迹最终都会得出一个最终答案。随后，该方法利用在“优-劣”答案对上训练出的Bradley-Terry模型，对结果进行排序和聚合。与传统的多数投票或简单的对数几率平均不同，该方法考虑了每条轨迹的相对强度，这在中间推理步骤出现矛盾时尤为关键。

作者展示了该方法在数学基准测试和逻辑推理任务中的实验结果。在GSM8K测试集上，该方法相比基准模型提升了约4至5个百分点，而在MATH等更复杂的任务中，性能差距甚至达到了7个百分点。同时，并行推理链的数量被限制在8条以内，从而将推理成本控制在合理范围内。

评估方法论也引发了一些疑问。作者使用内部数据构建Bradley-Terry训练所需的样本，但并未详细描述这些样本对的具体形成过程，以及它们在多大程度上能代表真实的错误分布。由于缺乏在独立数据上的外部验证，该结果的泛化能力仍有待商榷。

与Wang等人的Self-Consistency以及后来的Tree-of-Thoughts等研究相比，OpenDeepThink处于中间地带。它避免了树形搜索中常见的计算量指数级增长，同时采用了比简单投票更精细的排序机制。这使其在理念上接近人类反馈强化学习，但无需经历完整的奖励模型训练周期。

该研究的一个重要意义在于，它为不按比例增加成本而扩展并行推理提供了可能。如果该方法在更广泛的任务中得到验证，它可能会改变生产系统中推理侧计算的处理方式，尤其是在Token预算有限的情况下。

目前尚不清楚Bradley-Terry聚合在错误分布与训练样本差异较大时的稳健性如何。后续研究可能会测试该方法在代码生成和多语言任务中的迁移能力，并将其与过程奖励模型等替代技术进行对比。

归根结底，OpenDeepThink表明，即使不改变模型架构，仅通过对现有推理轨迹进行更智能的聚合，也能显著提升推理质量。

4 查看

来源

OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

通知中心

OpenDeepThink：Bradley-Terry 聚合机制如何重塑大模型的并行推理能力

来源

阅读更多关于此主题的文章：