AI-code debuggen blijft een uitdaging: Microsoft Research benadrukt beperkingen van OpenAI- en Anthropic-modellen

15:41, 12 april

Bewerkt door: Veronika Nazarova

AI-code debuggen blijft een uitdaging

Microsoft Research benadrukt beperkingen van OpenAI- en Anthropic-modellen

Een recente studie van Microsoft Research onthult dat AI-modellen van OpenAI en Anthropic nog steeds moeilijkheden ondervinden bij het effectief debuggen van code. De studie, uitgevoerd in april 2025, beoordeelde negen AI-modellen, waaronder Claude 3.7 Sonnet, o1 van OpenAI en o3-mini van OpenAI, met behulp van de SWE-bench Lite benchmark met debugging tools. Claude 3.7 Sonnet behaalde het hoogste succespercentage met 48,4%.

De onderzoekers schreven de suboptimale prestaties toe aan een gebrek aan gegevens die sequentieel besluitvormingsgedrag vertegenwoordigen. Microsoft Research introduceert ook debug-gym, een nieuwe omgeving die is ontworpen om AI-coding tools te trainen in de complexe kunst van het debuggen van code. Ondanks de gemengde resultaten onderstreept het onderzoek de voortdurende behoefte aan menselijke expertise in softwareontwikkeling en het potentieel voor toekomstige vooruitgang in AI-debugging mogelijkheden.

Lees meer nieuws over dit onderwerp:

17 mei

France's jean zay supercomputer boosts ai research with 125.9 petaflops

17 mei

Baidu explores ai to translate animal sounds into human language

17 mei

Anthropic Secures $2.5 Billion Credit Line Amid AI Competition

Heb je een fout of onnauwkeurigheid gevonden?

We zullen je opmerkingen zo snel mogelijk in overweging nemen.