OpenDeepThink: как агрегация Bradley-Terry трансформирует параллельное рассуждение в больших моделях

14:52, 15 мая

Отредактировано: Aleksandr Lytviak

OpenDeepThink: как агрегация Bradley-Terry трансформирует параллельное рассуждение в больших моделях-1 — OpenDeepThink: параллельное рассуждение через агрегирование Bradley--Terry (arXiv:2605.15177)

В мае 2025 года на arXiv появилась работа OpenDeepThink, предлагающая новый подход к параллельному рассуждению через механизм агрегации Bradley-Terry. Авторы представляют метод, который позволяет нескольким цепочкам рассуждений конкурировать и объединяться без явного обучения с подкреплением. Главный тезис статьи заключается в том, что такой подход даёт заметный прирост качества на сложных задачах, при этом сохраняя вычислительную эффективность по сравнению с традиционными методами ансамблирования.

Технически OpenDeepThink строит несколько независимых траекторий рассуждения, каждая из которых завершается финальным ответом. Затем применяется модель Bradley-Terry, обученная на парах «лучший — худший» ответ, чтобы ранжировать и агрегировать результаты. В отличие от классического majority voting или простого усреднения логитов, метод учитывает относительную силу каждой траектории, что особенно важно при наличии противоречивых промежуточных шагов.

Авторы демонстрируют результаты на математических бенчмарках и задачах логического вывода. На GSM8K прирост составляет около 4–5 пунктов по сравнению с базовой моделью, а на более сложных наборах, таких как MATH, разрыв достигает 7 пунктов. При этом количество параллельных цепочек ограничено восемью, что позволяет удерживать затраты на инференс в разумных пределах.

Методология оценки вызывает вопросы. Авторы используют внутренние пары для обучения Bradley-Terry, но не предоставляют детального описания, как именно формировались эти пары и насколько они репрезентативны для реальных распределений ошибок. Отсутствие внешней валидации на независимых данных оставляет пространство для сомнений в обобщаемости результатов.

В сравнении с предыдущими работами, такими как Self-Consistency от Wang et al. и более поздними подходами Tree-of-Thoughts, OpenDeepThink занимает промежуточную позицию. Он избегает экспоненциального роста вычислений, характерного для древовидного поиска, но при этом использует более тонкий механизм ранжирования, чем простое голосование. Это сближает его с идеями RLHF, однако без необходимости полного цикла обучения с вознаграждением.

Важным следствием работы становится возможность масштабировать параллельное рассуждение без пропорционального увеличения стоимости. Если метод подтвердится на более широком круге задач, он может изменить подход к inference-time compute в production-системах, где бюджет на токены ограничен.

Остаётся неясным, насколько устойчива агрегация Bradley-Terry при распределении ошибок, сильно отличающемся от обучающих пар. Следующие исследования, вероятно, будут проверять переносимость метода на кодогенерацию и многоязычные задачи, а также сравнивать его с альтернативными техниками, такими как Process Reward Models.

В конечном счёте OpenDeepThink показывает, что даже без радикальных изменений архитектуры можно существенно повысить качество рассуждений за счёт более умной агрегации уже существующих траекторий.

4 Просмотров

Источники

OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

Читайте больше статей по этой теме:

15 мая

Googlebook с Gemini Intelligence: как Magic Pointer переопределяет взаимодействие с ноутбуком

13 мая

OpenAI предоставляет ЕС доступ к GPT-5.5-Cyber: технический анализ специализации модели и стратегических расхождений с подходом Anthropic

13 мая

Стратегический разворот Anthropic: 200 млрд долларов на чипы Google Tensor Processing Units меняют баланс сил в гонке ИИ

Вы нашли ошибку или неточность?Мы учтем ваши комментарии как можно скорее.