Une étude récente de Microsoft Research révèle que les modèles d'IA d'OpenAI et d'Anthropic rencontrent encore des difficultés pour déboguer efficacement le code. L'étude, menée en avril 2025, a évalué neuf modèles d'IA, dont Claude 3.7 Sonnet, o1 d'OpenAI et o3-mini d'OpenAI, à l'aide du benchmark SWE-bench Lite avec des outils de débogage. Claude 3.7 Sonnet a obtenu le taux de réussite le plus élevé, à 48,4 %. Les chercheurs ont attribué cette performance sous-optimale à un manque de données représentant le comportement de prise de décision séquentielle. Microsoft Research présente également debug-gym, un nouvel environnement conçu pour former les outils de codage de l'IA à l'art complexe du débogage de code. Malgré les résultats mitigés, la recherche souligne la nécessité continue de l'expertise humaine dans le développement de logiciels et le potentiel d'avancées futures dans les capacités de débogage de l'IA.
Le débogage de code par l'IA reste un défi : Microsoft Research souligne les limites des modèles d'OpenAI et d'Anthropic
Édité par : Veronika Radoslavskaya
Lisez plus d’actualités sur ce sujet :
Meta refuse de signer le code de conduite de l'UE sur l'IA, soulevant des préoccupations sur la réglementation excessive
Les implications éthiques de l'informatique quantique gaussienne: une analyse approfondie
L'impact social de l'optimisation de l'IA: comment les marques SaaS façonnent l'avenir de l'interaction numérique
Avez-vous trouvé une erreur ou une inexactitude ?
Nous étudierons vos commentaires dans les plus brefs délais.