«Внутренний взор» ИИ: визуальное мышление повышает производительность в сложных задачах — Кембридж, Microsoft

Когда люди пытаются решить проблемы, они часто визуализируют задачи в своей голове. Новое исследование предполагает, что предоставление искусственному интеллекту возможности делать то же самое может повысить производительность в задачах пространственного мышления.

Хотя большие языковые модели превосходно справляются со многими текстовыми задачами, они часто испытывают трудности с теми, которые требуют более сложного мышления. Чтобы попытаться устранить этот пробел, исследователи из Кембриджского университета и Microsoft Research разработали новый подход, который позволяет ИИ «думать» как текстом, так и изображениями.

Этот метод позволяет мультимодальным большим языковым моделям генерировать визуальные представления своих промежуточных этапов рассуждений. В неопубликованном рецензируемом исследовании, размещенном на arXiv, исследователи сообщают, что, когда они протестировали этот подход в задачах пространственного мышления с использованием 2D-лабиринтов, они увидели значительные улучшения по сравнению с типичным методом «цепочки мыслей» (CoT) в наиболее сложных сценариях.

«Пространственные отношения и макеты, а также некоторые геометрические особенности очень трудно описать чистым текстом», — говорит соавтор Чэнцзу Ли, аспирант Кембриджского университета. «Вот почему мы думаем, что рассуждения с использованием чистого текста ограничат производительность модели в пространственных задачах. И это основная мотивация для введения визуальных «мыслей»», — говорит он.

Новый подход позволяет одной мультимодальной модели самостоятельно генерировать как визуальные, так и текстовые этапы рассуждений. Для этих экспериментов исследователи использовали модель под названием Anole, которая может отвечать в любой модальности. Исследователи точно настроили предварительно обученную модель на текстовых и графических данных из трех игр-лабиринтов с разными уровнями сложности. Они назвали свою точно настроенную версию Multimodal Visualization of Thought (MVoT).

Во время тестирования модели давали только начальное изображение и последовательность действий для выполнения. Затем он генерировал этапы рассуждений с использованием изображений и текста, за которыми следовал прогноз того, что произойдет.

Они обнаружили, что во всех трех играх модель MVoT значительно превзошла все модели, кроме той, которая использовала традиционный текстовый CoT. Эта модель фактически показала себя немного лучше в двух более простых лабиринтах, успешно предсказав результат в 98 процентах случаев в обоих, по сравнению с 93 и 95 процентами для MVoT. Но традиционная текстовая модель CoT показала себя намного хуже в самой сложной игре, набрав всего 61 процент по сравнению с 86 процентами у MVoT.

Исследователи говорят, что этот результат, вероятно, связан с тем, что CoT опирается на точные текстовые описания окружающей среды, которые становятся тем сложнее, чем сложнее становятся лабиринты. Напротив, включение изображений в процесс рассуждений, по-видимому, делает MVoT гораздо лучше в решении более сложных задач.

Ли говорит, что расширение этого подхода на более сложные области может иметь широкое применение. Одним из наиболее убедительных примеров является робототехника, где этот подход может помочь машинам более эффективно рассуждать о визуальных данных, которые они получают из окружающей среды. Это также может помочь репетиторам с искусственным интеллектом лучше иллюстрировать и объяснять идеи, особенно в таких областях, как геометрия. В более широком смысле, по его словам, этот подход может повысить интерпретируемость модели, предоставляя людям четкое представление о том, о чем модель думает в пространственных задачах.

Читайте больше новостей по этой теме:

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.