AI-code debuggen blijft een uitdaging: Microsoft Research benadrukt beperkingen van OpenAI- en Anthropic-modellen

Bewerkt door: Veronika Nazarova

AI-code debuggen blijft een uitdaging

Microsoft Research benadrukt beperkingen van OpenAI- en Anthropic-modellen

Een recente studie van Microsoft Research onthult dat AI-modellen van OpenAI en Anthropic nog steeds moeilijkheden ondervinden bij het effectief debuggen van code. De studie, uitgevoerd in april 2025, beoordeelde negen AI-modellen, waaronder Claude 3.7 Sonnet, o1 van OpenAI en o3-mini van OpenAI, met behulp van de SWE-bench Lite benchmark met debugging tools. Claude 3.7 Sonnet behaalde het hoogste succespercentage met 48,4%.

De onderzoekers schreven de suboptimale prestaties toe aan een gebrek aan gegevens die sequentieel besluitvormingsgedrag vertegenwoordigen. Microsoft Research introduceert ook debug-gym, een nieuwe omgeving die is ontworpen om AI-coding tools te trainen in de complexe kunst van het debuggen van code. Ondanks de gemengde resultaten onderstreept het onderzoek de voortdurende behoefte aan menselijke expertise in softwareontwikkeling en het potentieel voor toekomstige vooruitgang in AI-debugging mogelijkheden.

Heb je een fout of onnauwkeurigheid gevonden?

We zullen je opmerkingen zo snel mogelijk in overweging nemen.

GAYA ONE - De wereld verenigen met nieuws | Gaya One