У травні 2025 року на arXiv з'явилася робота OpenDeepThink, що пропонує новий підхід до паралельного мислення за допомогою механізму агрегації Бредлі-Террі. Автори презентують метод, який дозволяє кільком ланцюжкам міркувань конкурувати та об'єднуватися без явного навчання з підкріпленням. Головна теза статті полягає в тому, що такий підхід забезпечує помітний приріст якості на складних задачах, зберігаючи при цьому обчислювальну ефективність порівняно з традиційними методами ансамблювання.
Технічно OpenDeepThink вибудовує кілька незалежних траєкторій міркування, кожна з яких завершується фінальною відповіддю. Потім застосовується модель Бредлі-Террі, навчена на парах «краща — гірша» відповідь, для ранжування та агрегації результатів. На відміну від класичного голосування більшістю або простого усереднення логітів, цей метод враховує відносну силу кожної траєкторії, що особливо важливо за наявності суперечливих проміжних кроків.
Автори демонструють результати на математичних бенчмарках та задачах логічного висновування. На GSM8K приріст становить близько 4–5 пунктів порівняно з базовою моделлю, а на складніших наборах, таких як MATH, розрив сягає 7 пунктів. Водночас кількість паралельних ланцюжків обмежена вісьмома, що дозволяє утримувати витрати на інференс у розумних межах.
Методологія оцінювання викликає запитання. Автори використовують внутрішні пари для навчання Бредлі-Террі, проте не надають детального опису того, як саме формувалися ці пари та наскільки вони репрезентативні для реальних розподілів помилок. Відсутність зовнішньої валідації на незалежних даних залишає простір для сумнівів щодо узагальнюваності результатів.
У порівнянні з попередніми роботами, такими як Self-Consistency від Wang et al. та пізнішими підходами на кшталт Tree-of-Thoughts, OpenDeepThink займає проміжну позицію. Він уникає експоненціального зростання обчислень, характерного для деревоподібного пошуку, але водночас використовує більш тонкий механізм ранжування, ніж просте голосування. Це наближає його до ідей RLHF, проте без необхідності повного циклу навчання з винагородою.
Важливим наслідком роботи стає можливість масштабувати паралельні міркування без пропорційного збільшення вартості. Якщо метод підтвердиться на ширшому колі завдань, він може змінити підхід до обчислень під час інференсу в продуктових системах, де бюджет на токени обмежений.
Залишається незрозумілим, наскільки стійкою є агрегація Бредлі-Террі при розподілі помилок, що суттєво відрізняється від навчальних пар. Наступні дослідження, імовірно, перевірятимуть можливість перенесення методу на генерацію коду та багатомовні завдання, а також порівнюватимуть його з альтернативними техніками, такими як Process Reward Models.
Зрештою, OpenDeepThink показує, що навіть без радикальних змін архітектури можна суттєво підвищити якість міркувань завдяки розумнішій агрегації вже наявних траєкторій.




