Une étude récente de Microsoft Research révèle que les modèles d'IA d'OpenAI et d'Anthropic rencontrent encore des difficultés pour déboguer efficacement le code. L'étude, menée en avril 2025, a évalué neuf modèles d'IA, dont Claude 3.7 Sonnet, o1 d'OpenAI et o3-mini d'OpenAI, à l'aide du benchmark SWE-bench Lite avec des outils de débogage. Claude 3.7 Sonnet a obtenu le taux de réussite le plus élevé, à 48,4 %. Les chercheurs ont attribué cette performance sous-optimale à un manque de données représentant le comportement de prise de décision séquentielle. Microsoft Research présente également debug-gym, un nouvel environnement conçu pour former les outils de codage de l'IA à l'art complexe du débogage de code. Malgré les résultats mitigés, la recherche souligne la nécessité continue de l'expertise humaine dans le développement de logiciels et le potentiel d'avancées futures dans les capacités de débogage de l'IA.
Le débogage de code par l'IA reste un défi : Microsoft Research souligne les limites des modèles d'OpenAI et d'Anthropic
Édité par : Veronika Nazarova
Lisez plus d’actualités sur ce sujet :
Avez-vous trouvé une erreur ou une inexactitude ?
Nous étudierons vos commentaires dans les plus brefs délais.