OpenDeepThink: como a agregação Bradley-Terry transforma o raciocínio paralelo em grandes modelos de linguagem

Editado por: Aleksandr Lytviak

OpenDeepThink: como a agregação Bradley-Terry transforma o raciocínio paralelo em grandes modelos de linguagem-1
OpenDeepThink: Raciocínio Paralelo via agregação Bradley--Terry (arXiv:2605.15177)

Em maio de 2025, surgiu no arXiv o trabalho OpenDeepThink, que propõe uma nova abordagem para o raciocínio paralelo por meio do mecanismo de agregação Bradley-Terry. Os autores apresentam um método que permite a competição e unificação de múltiplas cadeias de raciocínio sem a necessidade de aprendizado por reforço explícito. A tese central do artigo é que essa estratégia proporciona um ganho notável de qualidade em tarefas complexas, mantendo a eficiência computacional em comparação aos métodos tradicionais de ensembling.

Tecnicamente, o OpenDeepThink constrói diversas trajetórias de raciocínio independentes, cada uma culminando em uma resposta final. Em seguida, aplica-se o modelo Bradley-Terry, treinado em pares de respostas do tipo "melhor-pior", para ranquear e agregar os resultados obtidos. Diferente da votação por maioria clássica ou da simples média de logits, o método leva em conta a força relativa de cada trajetória, o que é fundamental na presença de etapas intermediárias contraditórias.

Os autores demonstram resultados em benchmarks matemáticos e tarefas de inferência lógica. No GSM8K, o aumento é de cerca de 4 a 5 pontos em relação ao modelo base, enquanto em conjuntos de dados mais complexos, como o MATH, a diferença chega a 7 pontos. Ao mesmo tempo, o número de cadeias paralelas é limitado a oito, permitindo que os custos de inferência permaneçam dentro de limites razoáveis.

A metodologia de avaliação, entretanto, levanta alguns questionamentos. Os pesquisadores utilizam pares internos para o treinamento do Bradley-Terry, mas não detalham como esses pares foram formados ou se são representativos das distribuições reais de erros. A ausência de uma validação externa em dados independentes deixa margem para dúvidas sobre a capacidade de generalização dos resultados.

Em comparação com trabalhos anteriores, como o Self-Consistency de Wang et al. e as abordagens de Tree-of-Thoughts, o OpenDeepThink ocupa uma posição intermediária. Ele evita a expansão exponencial de processamento típica da busca em árvore, utilizando um mecanismo de ranqueamento mais refinado do que a simples votação. Isso o aproxima dos conceitos de RLHF, porém sem a exigência de um ciclo completo de treinamento baseado em recompensas.

Um desdobramento relevante deste trabalho é o potencial de escalar o raciocínio paralelo sem um aumento proporcional de custo. Se o método for validado em um espectro mais amplo de tarefas, poderá transformar a abordagem de computação em tempo de inferência em sistemas de produção onde o orçamento de tokens é restrito.

Permanece incerto o quão robusta é a agregação Bradley-Terry frente a distribuições de erros significativamente diferentes dos pares de treinamento. Estudos subsequentes deverão testar a aplicabilidade da técnica em geração de código e tarefas multilíngues, além de compará-lo com técnicas alternativas, como os Process Reward Models.

Em última análise, o OpenDeepThink evidencia que, mesmo sem mudanças arquitetônicas radicais, é possível elevar substancialmente a qualidade do raciocínio através de uma agregação mais inteligente das trajetórias já existentes.

4 Visualizações

Fontes

  • OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

Encontrou um erro ou imprecisão?Vamos considerar seus comentários assim que possível.