Налагодження коду ШІ все ще залишається проблемою: дослідження Microsoft підкреслює обмеження моделей OpenAI та Anthropic

Відредаговано: Veronika Nazarova

Налагодження коду ШІ все ще залишається проблемою

Дослідження Microsoft підкреслює обмеження моделей OpenAI та Anthropic

Нещодавнє дослідження Microsoft Research показує, що моделі ШІ від OpenAI та Anthropic все ще стикаються з проблемами в ефективному налагодженні коду. Дослідження, проведене у квітні 2025 року, оцінювало дев'ять моделей ШІ, включаючи Claude 3.7 Sonnet, o1 від OpenAI та o3-mini від OpenAI, використовуючи еталон SWE-bench Lite з інструментами налагодження. Claude 3.7 Sonnet досяг найвищого рівня успішності – 48,4%.

Дослідники пояснили субоптимальну продуктивність браком даних, що представляють поведінку послідовного прийняття рішень. Microsoft Research також представляє debug-gym, нове середовище, розроблене для навчання інструментів кодування ШІ складному мистецтву налагодження коду. Незважаючи на неоднозначні результати, дослідження підкреслює постійну потребу в людській експертизі в розробці програмного забезпечення та потенціал для майбутніх досягнень у можливостях налагодження ШІ.

Знайшли помилку чи неточність?

Ми розглянемо ваші коментарі якомога швидше.

GAYA ONE - Об'єднання світу через новини | Gaya One