W maju 2025 roku w serwisie arXiv pojawiła się praca OpenDeepThink, proponująca nowe podejście do rozumowania równoległego oparte na mechanizmie agregacji Bradleya-Terry’ego. Autorzy prezentują metodę, która pozwala wielu ścieżkom rozumowania konkurować i łączyć się bez konieczności jawnego uczenia ze wzmocnieniem. Główną tezą artykułu jest to, że takie podejście zapewnia wyraźny wzrost jakości w złożonych zadaniach, zachowując przy tym efektywność obliczeniową w porównaniu z tradycyjnymi metodami ensemblingu.
Pod względem technicznym OpenDeepThink tworzy kilka niezależnych ścieżek rozumowania, z których każda kończy się finalną odpowiedzią. Następnie stosuje się model Bradleya-Terry’ego, przeszkolony na parach odpowiedzi „lepsza – gorsza”, aby uszeregować i zagregować wyniki. W przeciwieństwie do klasycznego głosowania większościowego czy prostego uśredniania logitów, metoda ta uwzględnia relatywną siłę każdej trajektorii, co jest kluczowe w przypadku sprzecznych kroków pośrednich.
Autorzy demonstrują wyniki w benchmarkach matematycznych oraz zadaniach z zakresu wnioskowania logicznego. W teście GSM8K przyrost wynosi około 4–5 punktów względem modelu bazowego, a w trudniejszych zbiorach, takich jak MATH, różnica sięga 7 punktów. Przy czym liczba równoległych łańcuchów jest ograniczona do ośmiu, co pozwala utrzymać koszty inferencji w rozsądnych granicach.
Metodologia oceny budzi jednak pytania. Autorzy wykorzystują wewnętrzne pary do treningu modelu Bradleya-Terry’ego, lecz nie dostarczają szczegółowego opisu ich formowania ani tego, na ile są one reprezentatywne dla rzeczywistych rozkładów błędów. Brak zewnętrznej walidacji na niezależnych danych pozostawia pole do wątpliwości co do uniwersalności wyników.
W porównaniu z wcześniejszymi pracami, takimi jak Self-Consistency autorstwa Wanga i in. oraz późniejszymi podejściami Tree-of-Thoughts, OpenDeepThink zajmuje pozycję pośrednią. Unika on wykładniczego wzrostu obliczeń typowego dla przeszukiwania drzewiastego, stosując jednocześnie bardziej subtelny mechanizm rankingowy niż proste głosowanie. To zbliża go do idei RLHF, jednak bez potrzeby przeprowadzania pełnego cyklu uczenia z nagrodą.
Ważnym następstwem pracy jest możliwość skalowania rozumowania równoległego bez proporcjonalnego zwiększania kosztów. Jeśli skuteczność metody potwierdzi się w szerszym zakresie zadań, może ona zmienić podejście do obliczeń w fazie inferencji w systemach produkcyjnych z ograniczonym budżetem na tokeny.
Nie do końca jasne pozostaje, jak stabilna jest agregacja Bradleya-Terry’ego w sytuacjach, gdy rozkład błędów mocno odbiega od par treningowych. Przyszłe badania prawdopodobnie sprawdzą przenoszalność metody na generowanie kodu oraz zadania wielojęzyczne, a także porównają ją z alternatywnymi technikami, takimi jak modele nagrody procesowej (Process Reward Models).
W ostatecznym rozrachunku OpenDeepThink pokazuje, że nawet bez radykalnych zmian w architekturze można istotnie podnieść jakość rozumowania dzięki mądrzejszej agregacji istniejących już ścieżek.




