В мае 2025 года на arXiv появилась работа OpenDeepThink, предлагающая новый подход к параллельному рассуждению через механизм агрегации Bradley-Terry. Авторы представляют метод, который позволяет нескольким цепочкам рассуждений конкурировать и объединяться без явного обучения с подкреплением. Главный тезис статьи заключается в том, что такой подход даёт заметный прирост качества на сложных задачах, при этом сохраняя вычислительную эффективность по сравнению с традиционными методами ансамблирования.
Технически OpenDeepThink строит несколько независимых траекторий рассуждения, каждая из которых завершается финальным ответом. Затем применяется модель Bradley-Terry, обученная на парах «лучший — худший» ответ, чтобы ранжировать и агрегировать результаты. В отличие от классического majority voting или простого усреднения логитов, метод учитывает относительную силу каждой траектории, что особенно важно при наличии противоречивых промежуточных шагов.
Авторы демонстрируют результаты на математических бенчмарках и задачах логического вывода. На GSM8K прирост составляет около 4–5 пунктов по сравнению с базовой моделью, а на более сложных наборах, таких как MATH, разрыв достигает 7 пунктов. При этом количество параллельных цепочек ограничено восемью, что позволяет удерживать затраты на инференс в разумных пределах.
Методология оценки вызывает вопросы. Авторы используют внутренние пары для обучения Bradley-Terry, но не предоставляют детального описания, как именно формировались эти пары и насколько они репрезентативны для реальных распределений ошибок. Отсутствие внешней валидации на независимых данных оставляет пространство для сомнений в обобщаемости результатов.
В сравнении с предыдущими работами, такими как Self-Consistency от Wang et al. и более поздними подходами Tree-of-Thoughts, OpenDeepThink занимает промежуточную позицию. Он избегает экспоненциального роста вычислений, характерного для древовидного поиска, но при этом использует более тонкий механизм ранжирования, чем простое голосование. Это сближает его с идеями RLHF, однако без необходимости полного цикла обучения с вознаграждением.
Важным следствием работы становится возможность масштабировать параллельное рассуждение без пропорционального увеличения стоимости. Если метод подтвердится на более широком круге задач, он может изменить подход к inference-time compute в production-системах, где бюджет на токены ограничен.
Остаётся неясным, насколько устойчива агрегация Bradley-Terry при распределении ошибок, сильно отличающемся от обучающих пар. Следующие исследования, вероятно, будут проверять переносимость метода на кодогенерацию и многоязычные задачи, а также сравнивать его с альтернативными техниками, такими как Process Reward Models.
В конечном счёте OpenDeepThink показывает, что даже без радикальных изменений архитектуры можно существенно повысить качество рассуждений за счёт более умной агрегации уже существующих траекторий.




