2025年5月,arXiv上发布了一项名为OpenDeepThink的研究,提出了一种通过Bradley-Terry聚合机制实现并行推理的新方案。作者展示了一种无需显式强化学习,即可让多条推理链相互竞争并融合的技术。该论文的核心观点是,这种方法在保持计算效率优于传统集成方法的同时,能显著提升处理复杂任务的性能。
在技术层面,OpenDeepThink会构建多条独立的推理轨迹,每条轨迹最终都会得出一个最终答案。随后,该方法利用在“优-劣”答案对上训练出的Bradley-Terry模型,对结果进行排序和聚合。与传统的多数投票或简单的对数几率平均不同,该方法考虑了每条轨迹的相对强度,这在中间推理步骤出现矛盾时尤为关键。
作者展示了该方法在数学基准测试和逻辑推理任务中的实验结果。在GSM8K测试集上,该方法相比基准模型提升了约4至5个百分点,而在MATH等更复杂的任务中,性能差距甚至达到了7个百分点。同时,并行推理链的数量被限制在8条以内,从而将推理成本控制在合理范围内。
评估方法论也引发了一些疑问。作者使用内部数据构建Bradley-Terry训练所需的样本,但并未详细描述这些样本对的具体形成过程,以及它们在多大程度上能代表真实的错误分布。由于缺乏在独立数据上的外部验证,该结果的泛化能力仍有待商榷。
与Wang等人的Self-Consistency以及后来的Tree-of-Thoughts等研究相比,OpenDeepThink处于中间地带。它避免了树形搜索中常见的计算量指数级增长,同时采用了比简单投票更精细的排序机制。这使其在理念上接近人类反馈强化学习,但无需经历完整的奖励模型训练周期。
该研究的一个重要意义在于,它为不按比例增加成本而扩展并行推理提供了可能。如果该方法在更广泛的任务中得到验证,它可能会改变生产系统中推理侧计算的处理方式,尤其是在Token预算有限的情况下。
目前尚不清楚Bradley-Terry聚合在错误分布与训练样本差异较大时的稳健性如何。后续研究可能会测试该方法在代码生成和多语言任务中的迁移能力,并将其与过程奖励模型等替代技术进行对比。
归根结底,OpenDeepThink表明,即使不改变模型架构,仅通过对现有推理轨迹进行更智能的聚合,也能显著提升推理质量。




