OpenDeepThink: Bagaimana Agregasi Bradley-Terry Mentransformasi Penalaran Paralel pada Model Bahasa Besar

Diedit oleh: Aleksandr Lytviak

OpenDeepThink: Bagaimana Agregasi Bradley-Terry Mentransformasi Penalaran Paralel pada Model Bahasa Besar-1
OpenDeepThink: Penalaran Paralel melalui agregasi Bradley--Terry (arXiv:2605.15177)

Pada Mei 2025, sebuah makalah berjudul OpenDeepThink muncul di arXiv, memperkenalkan pendekatan baru untuk penalaran paralel melalui mekanisme agregasi Bradley-Terry. Para penulis menyajikan metode yang memungkinkan beberapa alur penalaran saling bersaing dan bergabung tanpa memerlukan pembelajaran penguatan yang eksplisit. Tesis utama dari artikel ini adalah bahwa pendekatan semacam itu memberikan peningkatan kualitas yang signifikan pada tugas-tugas kompleks, sembari tetap menjaga efisiensi komputasi dibandingkan dengan metode ensembling tradisional. <\/p>

Secara teknis, OpenDeepThink membangun beberapa lintasan penalaran independen yang masing-masing berakhir dengan jawaban final. Kemudian, model Bradley-Terry yang dilatih pada pasangan jawaban "terbaik - terburuk" diterapkan untuk mengurutkan dan menggabungkan hasil-hasil tersebut. Berbeda dengan pemungutan suara mayoritas klasik atau perataan logit sederhana, metode ini mempertimbangkan kekuatan relatif dari setiap lintasan, yang sangat penting ketika terdapat langkah-langkah perantara yang kontradiktif.<\/p>

Penulis mendemonstrasikan hasil pada tolok ukur matematika dan tugas-tugas inferensi logika. Pada GSM8K, peningkatannya mencapai sekitar 4–5 poin dibandingkan dengan model dasar, sementara pada kumpulan data yang lebih sulit seperti MATH, selisihnya mencapai 7 poin. Di saat yang sama, jumlah rantai paralel dibatasi hingga delapan, yang memungkinkan biaya inferensi tetap berada dalam batas yang wajar.<\/p>

Metodologi evaluasi yang digunakan menimbulkan beberapa pertanyaan. Penulis menggunakan pasangan internal untuk melatih Bradley-Terry, namun tidak memberikan deskripsi rinci tentang bagaimana tepatnya pasangan tersebut dibentuk dan seberapa representatif mereka terhadap distribusi kesalahan di dunia nyata. Kurangnya validasi eksternal pada data independen menyisakan ruang bagi keraguan mengenai generalisasi dari hasil-hasil tersebut.<\/p>

Dibandingkan dengan karya-karya sebelumnya, seperti Self-Consistency dari Wang dkk. dan pendekatan Tree-of-Thoughts yang lebih baru, OpenDeepThink menempati posisi menengah. Metode ini menghindari pertumbuhan komputasi eksponensial yang menjadi ciri khas pencarian berbasis pohon, namun tetap menggunakan mekanisme pemeringkatan yang lebih halus daripada sekadar pemungutan suara sederhana. Hal ini mendekatkannya dengan ide-ide RLHF, tetapi tanpa perlu melalui siklus pelatihan penghargaan yang lengkap.<\/p>

Konsekuensi penting dari penelitian ini adalah kemungkinan untuk menskalakan penalaran paralel tanpa peningkatan biaya yang proporsional. Jika metode ini terbukti efektif pada cakupan tugas yang lebih luas, hal itu dapat mengubah pendekatan terhadap komputasi waktu inferensi pada sistem produksi yang memiliki anggaran token terbatas.<\/p>

Masih belum jelas seberapa stabil agregasi Bradley-Terry ketika distribusi kesalahannya sangat berbeda dari pasangan data pelatihan. Penelitian selanjutnya kemungkinan akan menguji kemampuan transfer metode ini ke tugas-tugas pembuatan kode dan multibahasa, serta membandingkannya dengan teknik alternatif seperti Process Reward Models.<\/p>

Pada akhirnya, OpenDeepThink menunjukkan bahwa bahkan tanpa perubahan arsitektur yang radikal, kualitas penalaran dapat ditingkatkan secara signifikan melalui agregasi yang lebih cerdas terhadap lintasan-lintasan yang sudah ada.<\/p>

4 Tampilan

Sumber-sumber

  • OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

Apakah Anda menemukan kesalahan atau ketidakakuratan?Kami akan mempertimbangkan komentar Anda sesegera mungkin.