En mayo de 2025, se publicó en arXiv el estudio OpenDeepThink, que propone un nuevo enfoque para el razonamiento paralelo mediante un mecanismo de agregación basado en el modelo de Bradley-Terry. Los autores presentan un método que permite que múltiples cadenas de pensamiento compitan y se integren sin necesidad de recurrir a un aprendizaje por refuerzo explícito. La tesis principal del artículo sostiene que este enfoque mejora significativamente la calidad en tareas complejas, manteniendo una eficiencia computacional superior a la de los métodos tradicionales de ensamble.
Desde el punto de vista técnico, OpenDeepThink genera diversas trayectorias de razonamiento independientes, cada una de las cuales culmina en una respuesta final. Posteriormente, se aplica el modelo de Bradley-Terry, entrenado con pares de respuestas de tipo "mejor frente a peor", para clasificar y agregar los resultados obtenidos. A diferencia de la votación por mayoría convencional o el simple promedio de logits, este método considera la fuerza relativa de cada trayectoria, lo cual resulta crucial cuando existen pasos intermedios contradictorios.
Los autores demuestran la eficacia de su propuesta mediante pruebas de rendimiento en matemáticas y tareas de inferencia lógica. En el benchmark GSM8K, el incremento es de unos 4 o 5 puntos respecto al modelo base, mientras que en conjuntos más exigentes como MATH, la diferencia alcanza los 7 puntos. Asimismo, el número de cadenas paralelas se limita a ocho, lo que permite mantener los costes de inferencia dentro de unos márgenes razonables.
No obstante, la metodología de evaluación plantea ciertas interrogantes. Aunque los autores emplean pares internos para el entrenamiento de Bradley-Terry, no detallan cómo se formaron ni hasta qué punto representan las distribuciones de errores en escenarios reales. La falta de una validación externa con datos independientes deja margen para dudar sobre la capacidad de generalización de estos resultados.
En comparación con trabajos previos, como el Self-Consistency de Wang et al. o los enfoques más recientes de Tree-of-Thoughts, OpenDeepThink ocupa una posición intermedia. Este sistema evita el crecimiento exponencial de recursos propio de la búsqueda en árbol, pero emplea un mecanismo de clasificación más sofisticado que la simple votación. Esto lo aproxima a los conceptos de RLHF, aunque sin la necesidad de completar un ciclo entero de aprendizaje con modelos de recompensa.
Una consecuencia relevante de este trabajo es la posibilidad de escalar el razonamiento paralelo sin que los costes aumenten de forma proporcional. Si el método se valida en un espectro más amplio de tareas, podría transformar el enfoque del cómputo en tiempo de inferencia en sistemas de producción donde el presupuesto de tokens es limitado.
Todavía queda por ver qué tan robusta es la agregación de Bradley-Terry ante distribuciones de errores que difieran sustancialmente de los pares de entrenamiento. Es probable que las investigaciones futuras pongan a prueba la transferencia del método a la generación de código y tareas multilingües, comparándolo con técnicas alternativas como los Process Reward Models.
En última instancia, OpenDeepThink demuestra que, incluso sin cambios arquitectónicos radicales, es posible mejorar significativamente la calidad del razonamiento mediante una agregación más inteligente de las trayectorias ya existentes.




