A Depuração de Código por IA Ainda é um Desafio: Microsoft Research Destaca Limitações dos Modelos da OpenAI e Anthropic

Editado por: Veronika Nazarova

Um estudo recente da Microsoft Research revela que os modelos de IA da OpenAI e da Anthropic ainda enfrentam desafios na depuração de código de forma eficaz. O estudo, conduzido em abril de 2025, avaliou nove modelos de IA, incluindo Claude 3.7 Sonnet, o1 da OpenAI e o3-mini da OpenAI, usando o benchmark SWE-bench Lite com ferramentas de depuração. Claude 3.7 Sonnet alcançou a maior taxa de sucesso, com 48,4%. Os pesquisadores atribuíram o desempenho abaixo do ideal à falta de dados que representassem o comportamento de tomada de decisão sequencial. A Microsoft Research também está introduzindo o debug-gym, um novo ambiente projetado para treinar ferramentas de codificação de IA na complexa arte de depurar código. Apesar dos resultados mistos, a pesquisa sublinha a necessidade contínua de experiência humana no desenvolvimento de software e o potencial para futuros avanços nas capacidades de depuração de IA.

Encontrou um erro ou imprecisão?

Vamos considerar seus comentários assim que possível.