Google DeepMind представила Genie 2, продвинутый ИИ, способный генерировать интерактивные 3D-среды из одиночных изображений и предназначенный для обучения ИИ-агентов.
Эта "Базовая модель мира" может создавать сложные 3D-миры, в которых как люди, так и ИИ-агенты могут взаимодействовать с помощью клавиатуры и мыши. Демонстрационные видео показывают способность моделировать физические эффекты, такие как гравитация, дым и отражения воды, сохраняя при этом согласованность среды и моделируя поведение непроигрываемых персонажей (NPC).
Технически Genie 2 является авторегрессионной латентной диффузионной моделью, обученной на большом наборе видеоданных. Она может поддерживать сгенерированные миры до одной минуты, при этом большинство примеров длится от 10 до 20 секунд.
По сравнению с предшественником, оригинальный Genie был ограничен 2D-платформенными играми и работал медленно, с частотой один кадр в секунду. В отличие от этого, не оптимизированная версия Genie 2 уже работает в реальном времени, хотя и с пониженным качеством.
Ключевая цель Genie 2 — обучение ИИ-агентов, что демонстрирует агент SIMA (Масштабируемый Инструктируемый Мульти-мир Агент), выполняющий инструкции в сгенерированных средах. Исследовательская группа надеется решить структурные проблемы в обучении воплощенных агентов, стремясь достичь широты, необходимой для продвижения к Искусственному Интеллекту общего назначения (AGI).
Тем не менее, остаются проблемы, включая переменное качество выходных данных и необходимость улучшения согласованности при длительных взаимодействиях.