Gỡ lỗi mã AI vẫn là một thách thức
Nghiên cứu của Microsoft nhấn mạnh những hạn chế của các mô hình OpenAI và Anthropic
Một nghiên cứu gần đây của Microsoft Research tiết lộ rằng các mô hình AI từ OpenAI và Anthropic vẫn gặp phải những thách thức trong việc gỡ lỗi mã một cách hiệu quả. Nghiên cứu, được thực hiện vào tháng 4 năm 2025, đã đánh giá chín mô hình AI, bao gồm Claude 3.7 Sonnet, o1 của OpenAI và o3-mini của OpenAI, bằng cách sử dụng điểm chuẩn SWE-bench Lite với các công cụ gỡ lỗi. Claude 3.7 Sonnet đạt tỷ lệ thành công cao nhất là 48,4%.
Các nhà nghiên cứu cho rằng hiệu suất dưới mức tối ưu là do thiếu dữ liệu đại diện cho hành vi ra quyết định tuần tự. Microsoft Research cũng đang giới thiệu debug-gym, một môi trường mới được thiết kế để đào tạo các công cụ viết mã AI về nghệ thuật gỡ lỗi mã phức tạp. Bất chấp những kết quả trái chiều, nghiên cứu nhấn mạnh sự cần thiết liên tục của chuyên môn của con người trong phát triển phần mềm và tiềm năng cho những tiến bộ trong tương lai về khả năng gỡ lỗi AI.