Le débogage de code par l'IA reste un défi : Microsoft Research souligne les limites des modèles d'OpenAI et d'Anthropic

15:41, 12 avril

Édité par : Veronika Nazarova

Une étude récente de Microsoft Research révèle que les modèles d'IA d'OpenAI et d'Anthropic rencontrent encore des difficultés pour déboguer efficacement le code. L'étude, menée en avril 2025, a évalué neuf modèles d'IA, dont Claude 3.7 Sonnet, o1 d'OpenAI et o3-mini d'OpenAI, à l'aide du benchmark SWE-bench Lite avec des outils de débogage. Claude 3.7 Sonnet a obtenu le taux de réussite le plus élevé, à 48,4 %. Les chercheurs ont attribué cette performance sous-optimale à un manque de données représentant le comportement de prise de décision séquentielle. Microsoft Research présente également debug-gym, un nouvel environnement conçu pour former les outils de codage de l'IA à l'art complexe du débogage de code. Malgré les résultats mitigés, la recherche souligne la nécessité continue de l'expertise humaine dans le développement de logiciels et le potentiel d'avancées futures dans les capacités de débogage de l'IA.

Lisez plus d’actualités sur ce sujet :

24 février

Anthropic Unveils Claude 3.7 Sonnet: A Hybrid AI Model for Real-Time and Reasoning Tasks

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.