Модели зрения и языка (VLMs) играют важную роль в мультимодальных задачах, таких как поиск изображений, создание подписей и медицинская диагностика, путем согласования визуальных и лингвистических данных. Однако понимание отрицания в этих моделях остается одной из основных проблем. Отрицание критично для нюансированных приложений, таких как различение 'комнаты без окон' и 'комнаты с окнами'. Несмотря на достижения, современные VLMs не могут надежно интерпретировать отрицание, что сильно ограничивает их эффективность в высокоответственных областях, таких как мониторинг безопасности и здравоохранение.
Современные VLMs, такие как CLIP, используют общие пространства встраивания для согласования визуальных и текстовых представлений. Хотя эти модели превосходно справляются с задачами, такими как кросс-модальный поиск и создание подписей к изображениям, их производительность резко падает при работе с отрицательными утверждениями. Это ограничение возникает из-за предвзятости данных предобучения, поскольку обучающие наборы данных в основном содержат утвердительные примеры, что приводит к предвзятости утверждения, когда модели рассматривают отрицательные и утвердительные утверждения как эквиваленты. Существующие контрольные точки, такие как CREPE и CC-Neg, полагаются на упрощенные шаблонные примеры, которые не представляют богатства и глубины отрицания в естественном языке.
Чтобы решить эти ограничения, исследователи из MIT, Google DeepMind и Оксфордского университета предложили рамку NegBench для оценки и улучшения понимания отрицания в VLMs. Рамка оценивает две основные задачи: Поиск с отрицанием (Retrieval-Neg), которая проверяет способность модели извлекать изображения в соответствии с утвердительными и отрицательными спецификациями, такими как 'пляж без людей', и Вопросы с несколькими вариантами с отрицанием (MCQ-Neg), которые оценивают нюансированное понимание, требуя от моделей выбора подходящих подписей из легких вариаций.
Она использует огромные синтетические наборы данных, такие как CC12M-NegCap и CC12M-NegMCQ, дополненные миллионами подписей, которые содержат широкий спектр сценариев отрицания. Это подвергнет VLMs некоторым сложным отрицаниям и парафразированным подписям, улучшая обучение и оценку моделей. Стандартные наборы данных, такие как COCO и MSR-VTT, также были адаптированы, включая отрицательные подписи и парафразы, чтобы дополнительно расширить лексическое разнообразие и протестировать устойчивость. Включив разнообразные и сложные примеры отрицания, NegBench эффективно преодолевает существующие ограничения, значительно улучшая производительность модели и обобщение.
NegBench использует как реальные, так и синтетические наборы данных для тестирования понимания отрицания. Наборы данных, такие как COCO, VOC2007 и CheXpert, были адаптированы для включения сценариев отрицания, таких как 'Это изображение включает деревья, но не здания'. Для MCQs использовались шаблоны, такие как 'Это изображение включает A, но не B', вместе с парафразированными вариациями для разнообразия. NegBench дополнительно увеличивается набором данных HardNeg-Syn, где изображения синтезируются, чтобы представить пары, отличающиеся друг от друга на основе наличия или отсутствия определенных объектов, что составляет сложные случаи для понимания отрицания.
Тонкая настройка модели зависела от двух целей обучения. С одной стороны, контрастивная потеря способствовала согласованию между парами изображений и подписей, улучшая производительность в извлечении. С другой стороны, использование потерь с несколькими вариантами помогло сделать тонкие суждения о отрицании, предпочитая правильные подписи в контексте MCQ.
Модели, настроенные с учетом этих факторов, показали значительные улучшения в задачах извлечения и понимания, используя наборы данных, обогащенные отрицанием. Для извлечения напоминание модели увеличивается на 10% для отрицательных запросов, где производительность почти на уровне стандартных задач извлечения. В задачах с несколькими вариантами сообщалось об улучшениях точности до 40%, что показывает лучшую способность различать тонкие утвердительные и отрицательные подписи. Продвижения были равномерными по ряду наборов данных, включая COCO и MSR-VTT, а также по синтетическим наборам данных, таким как HardNeg-Syn, где модели адекватно обрабатывали отрицание и сложные лингвистические разработки. Это предполагает, что представление сценариев с разнообразными видами отрицания в обучении и тестировании эффективно снижает предвзятость утверждений и обобщение.
NegBench заполняет критическую пробелу в VLMs, будучи первой работой, которая решает их неспособность понимать отрицание. Он приносит значительные улучшения в задачах извлечения и понимания, включая разнообразные примеры отрицания в обучение и оценку. Такие улучшения открывают возможности для гораздо более надежных систем ИИ, способных к тонкому пониманию языка, с важными последствиями для критических областей, таких как медицинская диагностика и семантический поиск контента.