Gỡ lỗi mã AI vẫn là một thách thức: Nghiên cứu của Microsoft nhấn mạnh những hạn chế của các mô hình OpenAI và Anthropic

15:41, 12 tháng 4

Chỉnh sửa bởi: Veronika Nazarova

Gỡ lỗi mã AI vẫn là một thách thức

Nghiên cứu của Microsoft nhấn mạnh những hạn chế của các mô hình OpenAI và Anthropic

Một nghiên cứu gần đây của Microsoft Research tiết lộ rằng các mô hình AI từ OpenAI và Anthropic vẫn gặp phải những thách thức trong việc gỡ lỗi mã một cách hiệu quả. Nghiên cứu, được thực hiện vào tháng 4 năm 2025, đã đánh giá chín mô hình AI, bao gồm Claude 3.7 Sonnet, o1 của OpenAI và o3-mini của OpenAI, bằng cách sử dụng điểm chuẩn SWE-bench Lite với các công cụ gỡ lỗi. Claude 3.7 Sonnet đạt tỷ lệ thành công cao nhất là 48,4%.

Các nhà nghiên cứu cho rằng hiệu suất dưới mức tối ưu là do thiếu dữ liệu đại diện cho hành vi ra quyết định tuần tự. Microsoft Research cũng đang giới thiệu debug-gym, một môi trường mới được thiết kế để đào tạo các công cụ viết mã AI về nghệ thuật gỡ lỗi mã phức tạp. Bất chấp những kết quả trái chiều, nghiên cứu nhấn mạnh sự cần thiết liên tục của chuyên môn của con người trong phát triển phần mềm và tiềm năng cho những tiến bộ trong tương lai về khả năng gỡ lỗi AI.

Đọc thêm tin tức về chủ đề này:

24 tháng 2

Anthropic Unveils Claude 3.7 Sonnet: A Hybrid AI Model for Real-Time and Reasoning Tasks

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.