Google DeepMind представляет Genie 2 для Интерактивных 3D-Окружений

Отредактировано: Veronika Nazarova

Google DeepMind представила Genie 2, продвинутый ИИ, способный генерировать интерактивные 3D-среды из одиночных изображений и предназначенный для обучения ИИ-агентов.

Эта "Базовая модель мира" может создавать сложные 3D-миры, в которых как люди, так и ИИ-агенты могут взаимодействовать с помощью клавиатуры и мыши. Демонстрационные видео показывают способность моделировать физические эффекты, такие как гравитация, дым и отражения воды, сохраняя при этом согласованность среды и моделируя поведение непроигрываемых персонажей (NPC).

Технически Genie 2 является авторегрессионной латентной диффузионной моделью, обученной на большом наборе видеоданных. Она может поддерживать сгенерированные миры до одной минуты, при этом большинство примеров длится от 10 до 20 секунд.

По сравнению с предшественником, оригинальный Genie был ограничен 2D-платформенными играми и работал медленно, с частотой один кадр в секунду. В отличие от этого, не оптимизированная версия Genie 2 уже работает в реальном времени, хотя и с пониженным качеством.

Ключевая цель Genie 2 — обучение ИИ-агентов, что демонстрирует агент SIMA (Масштабируемый Инструктируемый Мульти-мир Агент), выполняющий инструкции в сгенерированных средах. Исследовательская группа надеется решить структурные проблемы в обучении воплощенных агентов, стремясь достичь широты, необходимой для продвижения к Искусственному Интеллекту общего назначения (AGI).

Тем не менее, остаются проблемы, включая переменное качество выходных данных и необходимость улучшения согласованности при длительных взаимодействиях.

Читайте больше новостей по этой теме:

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.