2025 年 5 月,arXiv 上發表了一篇名為 OpenDeepThink 的論文,提出了一種透過 Bradley-Terry 聚合機制實現並行推理的新方法。作者展示了一種讓多條推理鏈在無需顯式強化學習的情況下進行競爭與整合的技術。該論文的核心論點在於,這種方法能在處理複雜任務時顯著提升品質,同時比傳統的集成方法更具運算效率。
從技術層面來看,OpenDeepThink 會構建數條獨立的推理路徑,每條路徑最終都會得出一個結論。接著,系統採用根據「最佳與最差」答案對訓練出的 Bradley-Terry 模型,對結果進行排序與聚合。與傳統的多數決或簡單的 Logit 平均法不同,此方法考慮了每條路徑的相對強度,這在存在矛盾的中間步驟時顯得尤為重要。
作者在數學基準測試與邏輯推理任務上展示了研究成果。在 GSM8K 測試中,該方法相較於基準模型提升了約 4 到 5 個百分點,而在更複雜的 MATH 資料集上,差距更達到了 7 個百分點。與此同時,並行鏈的數量限制在八條以內,這使得推論成本能維持在合理的範圍內。
然而,其評估方法論也引發了一些疑問。作者使用內部配對來訓練 Bradley-Terry 模型,但並未詳細說明這些配對的具體形成方式,以及它們對真實錯誤分佈的代表性如何。由於缺乏獨立數據的外部驗證,其結果的泛化能力仍存在疑慮。
與 Wang 等人提出的 Self-Consistency 以及後來的 Tree-of-Thoughts 等先前研究相比,OpenDeepThink 採取了折衷方案。它避開了樹狀搜尋中常見的運算量指數級增長問題,同時採用了比單純投票更精細的排序機制。這使其在理念上接近 RLHF,卻無需經歷完整的獎勵訓練週期。
這項研究的一個重要啟示是,有可能在不按比例增加成本的情況下擴展並行推理能力。若該方法在更廣泛的任務中獲得證實,它可能會改變代幣預算受限的生產系統中,對推論時運算(inference-time compute)的處理方式。
目前尚不清楚當錯誤分佈與訓練配對存在顯著差異時,Bradley-Terry 聚合機制的穩定性如何。未來的研究可能會驗證該方法在程式碼生成與多語言任務中的遷移能力,並將其與過程獎勵模型等替代技術進行比較。
歸根結底,OpenDeepThink 證明了即便不對架構進行根本性改變,僅透過對現有路徑進行更聰明的聚合,也能大幅提升推理品質。




