Debugging Kode AI Masih Menjadi Tantangan: Microsoft Research Menyoroti Keterbatasan Model OpenAI dan Anthropic

Diedit oleh: Veronika Nazarova

Sebuah studi terbaru dari Microsoft Research mengungkapkan bahwa model AI dari OpenAI dan Anthropic masih menghadapi tantangan dalam melakukan debugging kode secara efektif. Studi yang dilakukan pada April 2025 ini, menilai sembilan model AI, termasuk Claude 3.7 Sonnet, o1 dari OpenAI, dan o3-mini dari OpenAI, menggunakan tolok ukur SWE-bench Lite dengan alat debugging. Claude 3.7 Sonnet mencapai tingkat keberhasilan tertinggi yaitu 48,4%. Para peneliti menghubungkan kinerja suboptimal dengan kurangnya data yang mewakili perilaku pengambilan keputusan berurutan. Microsoft Research juga memperkenalkan debug-gym, lingkungan baru yang dirancang untuk melatih alat pengkodean AI dalam seni kompleks debugging kode. Terlepas dari hasil yang beragam, penelitian ini menggarisbawahi perlunya keahlian manusia yang berkelanjutan dalam pengembangan perangkat lunak dan potensi untuk kemajuan di masa depan dalam kemampuan debugging AI.

Apakah Anda menemukan kesalahan atau ketidakakuratan?

Kami akan mempertimbangkan komentar Anda sesegera mungkin.

GAYA ONE - Menyatukan Dunia dengan Berita | Gaya One