2025年5月、Bradley-Terry(ブラッドリー・テリー)アグリゲーション機構を通じた並列推論への新たなアプローチを提案する論文「OpenDeepThink」がarXivに公開されました。著者らは、明示的な強化学習を用いることなく、複数の推論チェーンを競合・統合させる手法を提示しています。この論文の主な主張は、従来のアサンブル手法と比較して計算効率を維持しつつ、複雑なタスクにおいて顕著な品質向上を実現できるという点にあります。
技術的な側面では、OpenDeepThinkはまず、それぞれが最終回答に至る複数の独立した推論軌道を構築します。次に、回答の「良し悪し」のペアで学習されたBradley-Terryモデルを適用し、結果の順位付けと集約を行います。多数決や単純なロジット平均とは異なり、この手法は各軌道の相対的な強度を考慮するため、中間ステップに矛盾が生じている場合に特に有効です。
著者らは、数学的ベンチマークや論理推論タスクにおいてその成果を実証しています。GSM8Kではベースモデルと比較して約4〜5ポイントの向上が見られ、MATHのようなより難易度の高いデータセットでは、その差は7ポイントにまで達します。同時に、並列チェーンの数を8つに制限することで、推論コストを妥当な範囲内に抑えることにも成功しています。
評価手法については、いくつか疑問も残ります。著者らはBradley-Terryの学習に内部的なペアを使用していますが、それらが具体的にどのように形成され、実際の誤り分布をどの程度代表しているかについての詳細な記述が不足しています。独立したデータによる外部検証が欠如しているため、結果の汎用性については議論の余地があります。
WangらによるSelf-Consistencyやその後のTree-of-Thoughtsアプローチといった先行研究と比較すると、OpenDeepThinkは中間的な位置付けにあります。ツリー探索に特有の計算量の指数関数的増大を回避しつつ、単純な投票よりも精緻な順位付けメカニズムを採用しています。これにより、報酬学習の全サイクルを必要とせずに、RLHFの考え方に近いアプローチを実現しています。
この研究の重要な帰結は、コストを比例的に増大させることなく並列推論をスケールアップできる可能性を示したことです。もしこの手法がより広範なタスクで有効だと確認されれば、トークンの予算が限られている実用システムにおける推論時の計算(inference-time compute)へのアプローチを変える可能性があります。
学習時のペアとは大きく異なる誤り分布が生じた際、Bradley-Terryアグリゲーションがどの程度の堅牢性を維持できるかは依然として不明です。今後の研究では、コード生成や多言語タスクへの適用可能性の検証に加え、Process Reward Models(プロセス報酬モデル)などの代替手法との比較が行われることになるでしょう。
結局のところ、OpenDeepThinkが示したのは、モデルのアーキテクチャを根本的に変えずとも、既存の推論軌道をより巧妙に集約することで、推論の質を大幅に向上させることができるという事実です。




