OpenDeepThink: как агрегация Bradley-Terry трансформирует параллельное рассуждение в больших моделях

Отредактировано: Aleksandr Lytviak

OpenDeepThink: как агрегация Bradley-Terry трансформирует параллельное рассуждение в больших моделях-1
OpenDeepThink: параллельное рассуждение через агрегирование Bradley--Terry (arXiv:2605.15177)

В мае 2025 года на arXiv появилась работа OpenDeepThink, предлагающая новый подход к параллельному рассуждению через механизм агрегации Bradley-Terry. Авторы представляют метод, который позволяет нескольким цепочкам рассуждений конкурировать и объединяться без явного обучения с подкреплением. Главный тезис статьи заключается в том, что такой подход даёт заметный прирост качества на сложных задачах, при этом сохраняя вычислительную эффективность по сравнению с традиционными методами ансамблирования.

Технически OpenDeepThink строит несколько независимых траекторий рассуждения, каждая из которых завершается финальным ответом. Затем применяется модель Bradley-Terry, обученная на парах «лучший — худший» ответ, чтобы ранжировать и агрегировать результаты. В отличие от классического majority voting или простого усреднения логитов, метод учитывает относительную силу каждой траектории, что особенно важно при наличии противоречивых промежуточных шагов.

Авторы демонстрируют результаты на математических бенчмарках и задачах логического вывода. На GSM8K прирост составляет около 4–5 пунктов по сравнению с базовой моделью, а на более сложных наборах, таких как MATH, разрыв достигает 7 пунктов. При этом количество параллельных цепочек ограничено восемью, что позволяет удерживать затраты на инференс в разумных пределах.

Методология оценки вызывает вопросы. Авторы используют внутренние пары для обучения Bradley-Terry, но не предоставляют детального описания, как именно формировались эти пары и насколько они репрезентативны для реальных распределений ошибок. Отсутствие внешней валидации на независимых данных оставляет пространство для сомнений в обобщаемости результатов.

В сравнении с предыдущими работами, такими как Self-Consistency от Wang et al. и более поздними подходами Tree-of-Thoughts, OpenDeepThink занимает промежуточную позицию. Он избегает экспоненциального роста вычислений, характерного для древовидного поиска, но при этом использует более тонкий механизм ранжирования, чем простое голосование. Это сближает его с идеями RLHF, однако без необходимости полного цикла обучения с вознаграждением.

Важным следствием работы становится возможность масштабировать параллельное рассуждение без пропорционального увеличения стоимости. Если метод подтвердится на более широком круге задач, он может изменить подход к inference-time compute в production-системах, где бюджет на токены ограничен.

Остаётся неясным, насколько устойчива агрегация Bradley-Terry при распределении ошибок, сильно отличающемся от обучающих пар. Следующие исследования, вероятно, будут проверять переносимость метода на кодогенерацию и многоязычные задачи, а также сравнивать его с альтернативными техниками, такими как Process Reward Models.

В конечном счёте OpenDeepThink показывает, что даже без радикальных изменений архитектуры можно существенно повысить качество рассуждений за счёт более умной агрегации уже существующих траекторий.

4 Просмотров

Источники

  • OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

Вы нашли ошибку или неточность?Мы учтем ваши комментарии как можно скорее.