OpenDeepThink: Cách cơ chế tổng hợp Bradley-Terry thay đổi tư duy song song trong các mô hình lớn

Chỉnh sửa bởi: Aleksandr Lytviak

OpenDeepThink: Cách cơ chế tổng hợp Bradley-Terry thay đổi tư duy song song trong các mô hình lớn-1
OpenDeepThink: Lý luận song song thông qua tổng hợp Bradley--Terry (arXiv:2605.15177)

Vào tháng 5 năm 2025, một nghiên cứu mang tên OpenDeepThink đã xuất hiện trên arXiv, đề xuất phương pháp tiếp cận mới cho khả năng tư duy song song thông qua cơ chế tổng hợp Bradley-Terry. Các tác giả giới thiệu một kỹ thuật cho phép nhiều chuỗi lập luận cùng cạnh tranh và hợp nhất mà không cần đến quá trình học tăng cường rõ rệt. Luận điểm cốt lõi của bài báo khẳng định rằng cách tiếp cận này giúp cải thiện đáng kể chất lượng xử lý các tác vụ phức tạp, trong khi vẫn duy trì hiệu suất tính toán ưu việt hơn so với các phương pháp kết hợp truyền thống.

Về mặt kỹ thuật, OpenDeepThink thiết lập nhiều lộ trình tư duy độc lập, với mỗi lộ trình dẫn đến một kết quả cuối cùng riêng biệt. Sau đó, mô hình Bradley-Terry, vốn được huấn luyện dựa trên các cặp câu trả lời "tốt nhất - tệ nhất", sẽ tiến hành xếp hạng và tổng hợp các kết quả này. Khác với phương pháp bỏ phiếu đa số thông thường hay tính trung bình logit đơn giản, kỹ thuật này xem xét sức mạnh tương đối của từng lộ trình, một yếu tố cực kỳ quan trọng khi xuất hiện các bước suy luận trung gian mâu thuẫn nhau.

Nhóm tác giả đã chứng minh hiệu quả của phương pháp thông qua các bài kiểm tra năng lực toán học và suy luận logic. Trên thang đo GSM8K, mức độ chính xác tăng khoảng 4-5 điểm so với mô hình gốc, và khoảng cách này lên tới 7 điểm đối với các bộ dữ liệu thách thức hơn như MATH. Đáng chú ý, số lượng chuỗi tư duy song song được giới hạn ở con số tám, giúp kiểm soát chi phí vận hành ở mức hợp lý.

Tuy nhiên, phương pháp đánh giá trong nghiên cứu vẫn còn để lại một số điểm cần làm rõ. Các tác giả sử dụng các cặp dữ liệu nội bộ để huấn luyện Bradley-Terry, nhưng lại chưa mô tả chi tiết quy trình hình thành các cặp này cũng như độ tương quan của chúng với các phân phối lỗi trong thực tế. Việc thiếu đi các bước xác thực độc lập trên dữ liệu bên ngoài khiến khả năng tổng quát hóa của các kết quả vẫn còn là một dấu hỏi.

Khi đặt lên bàn cân với các nghiên cứu tiền nhiệm như Self-Consistency của Wang và cộng sự hay Tree-of-Thoughts sau này, OpenDeepThink cho thấy mình đang đứng ở vị trí trung gian. Nó khắc phục được tình trạng bùng nổ chi phí tính toán theo hàm mũ vốn thường thấy ở tìm kiếm dạng cây, nhưng vẫn sở hữu cơ chế xếp hạng tinh tế hơn hẳn so với việc bỏ phiếu đơn thuần. Điều này tạo ra sự tương đồng với các nguyên lý của RLHF, nhưng lại loại bỏ được sự phức tạp của một chu kỳ huấn luyện phần thưởng toàn diện.

Một hệ quả quan trọng từ nghiên cứu là tiềm năng mở rộng khả năng tư duy song song mà không đòi hỏi sự gia tăng chi phí tương ứng. Nếu tính hiệu quả của phương pháp được khẳng định trên nhiều loại tác vụ hơn, nó có thể tái định nghĩa cách tiếp cận tính toán trong giai đoạn suy luận tại các hệ thống thực tế, nơi ngân sách dành cho token luôn bị giới hạn.

Câu hỏi về độ ổn định của cơ chế tổng hợp Bradley-Terry khi đối mặt với các phân phối lỗi khác biệt lớn so với dữ liệu huấn luyện vẫn còn bỏ ngỏ. Các nghiên cứu tiếp theo có thể sẽ tập trung kiểm chứng khả năng thích ứng của phương pháp này trong lập trình và các tác vụ đa ngôn ngữ, đồng thời so sánh nó với các kỹ thuật thay thế như Mô hình Phần thưởng Quy trình (Process Reward Models).

Sau cùng, OpenDeepThink đã chứng minh rằng ngay cả khi không thay đổi cấu trúc cốt lõi, chúng ta vẫn có thể nâng tầm khả năng tư duy của mô hình thông qua việc tổng hợp thông minh các lộ trình lập luận sẵn có.

4 Lượt xem

Nguồn

  • OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

Bạn có phát hiện lỗi hoặc sai sót không?Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.