Un estudio reciente de Microsoft Research revela que los modelos de IA de OpenAI y Anthropic aún enfrentan desafíos para depurar código de manera efectiva. El estudio, realizado en abril de 2025, evaluó nueve modelos de IA, incluidos Claude 3.7 Sonnet, o1 de OpenAI y o3-mini de OpenAI, utilizando el benchmark SWE-bench Lite con herramientas de depuración. Claude 3.7 Sonnet logró la tasa de éxito más alta con un 48.4%. Los investigadores atribuyeron el rendimiento subóptimo a la falta de datos que representen el comportamiento de toma de decisiones secuencial. Microsoft Research también está presentando debug-gym, un nuevo entorno diseñado para capacitar a las herramientas de codificación de IA en el complejo arte de la depuración de código. A pesar de los resultados mixtos, la investigación subraya la necesidad continua de la experiencia humana en el desarrollo de software y el potencial de futuros avances en las capacidades de depuración de la IA.
La depuración de código con IA sigue siendo un desafío: Microsoft Research destaca las limitaciones de los modelos de OpenAI y Anthropic
Editado por: Veronika Nazarova
Lea más noticias sobre este tema:
¿Encontró un error o inexactitud?
Consideraremos sus comentarios lo antes posible.