AI-code debuggen blijft een uitdaging
Microsoft Research benadrukt beperkingen van OpenAI- en Anthropic-modellen
Een recente studie van Microsoft Research onthult dat AI-modellen van OpenAI en Anthropic nog steeds moeilijkheden ondervinden bij het effectief debuggen van code. De studie, uitgevoerd in april 2025, beoordeelde negen AI-modellen, waaronder Claude 3.7 Sonnet, o1 van OpenAI en o3-mini van OpenAI, met behulp van de SWE-bench Lite benchmark met debugging tools. Claude 3.7 Sonnet behaalde het hoogste succespercentage met 48,4%.
De onderzoekers schreven de suboptimale prestaties toe aan een gebrek aan gegevens die sequentieel besluitvormingsgedrag vertegenwoordigen. Microsoft Research introduceert ook debug-gym, een nieuwe omgeving die is ontworpen om AI-coding tools te trainen in de complexe kunst van het debuggen van code. Ondanks de gemengde resultaten onderstreept het onderzoek de voortdurende behoefte aan menselijke expertise in softwareontwikkeling en het potentieel voor toekomstige vooruitgang in AI-debugging mogelijkheden.