PeopleTec, ведущая технологическая компания, специализирующаяся на решениях в области искусственного интеллекта и обороны, недавно внесла значительный вклад в наше понимание способности моделей ИИ справляться с неопределенностью.
Их исследование, представленное на саммите 2024 AGI Leap Summit, проливает свет на проблемы и потенциальные решения в этой важнейшей области развития ИИ.
Основные результаты исследования PeopleTec
Набор данных неразрешимых проблем:
Исследователи PeopleTec представили новую систему оценки, предназначенную для определения способности больших языковых моделей (БЯМ) признавать неопределенность в принципиально неразрешимых проблемах.
В исследовании использовался набор данных, состоящий из 675 вопросов грандиозной задачи для выпускников с заведомо не известными ответами, охватывающий области от биологии до философии и математики.
Эффективность современных моделей:
В исследовании оценивались двенадцать современных моделей LLM, включая модели с открытым и закрытым исходным кодом. Модели, показавшие наилучшие результаты, достигли диапазона точности 62-68 % при признании того, что решения задач неизвестны.
Обратная зависимость между сложностью и точностью:
Интригующей находкой стала обратная зависимость между сложностью задачи и точностью модели. Например, GPT-4 продемонстрировал более высокий уровень признания неопределенности при решении более сложных задач (35,8 %) по сравнению с более простыми (20,0 %).
Проблемные области:
Модели продемонстрировали особые трудности с признанием неопределенности в изобретениях и NP-трудных задачах.
Лучшая производительность:
Относительно лучшая производительность наблюдалась при решении философских и психологических задач
Исследование PeopleTec подчеркивает критическую важность распознавания неопределенности как компонента будущей оценки машинного интеллекта
Исследование подчеркивает важность разработки моделей ИИ, способных адекватно признавать незнание. Эта способность необходима для укрепления доверия к системам ИИ, особенно когда от них ожидают, что они будут выступать в качестве консультантов в процессах принятия важных решений.