Google DeepMind Presenta 'Genie 2' para Entornos 3D Interactivos

Editado por: Veronika Nazarova

Google DeepMind ha presentado 'Genie 2', una IA avanzada capaz de generar entornos 3D interactivos a partir de imágenes únicas, destinada a entrenar agentes de IA.

Este 'Modelo de Mundo Fundamental' puede crear mundos 3D complejos donde tanto humanos como agentes de IA pueden interactuar usando teclado y ratón. Los videos de demostración muestran su capacidad para modelar efectos físicos como la gravedad, el humo y los reflejos en el agua, manteniendo la consistencia del entorno y simulando el comportamiento de personajes no jugables (NPC).

Técnicamente, Genie 2 es un modelo de difusión latente autorregresivo entrenado con un gran conjunto de datos de video. Puede mantener mundos generados durante hasta un minuto, con la mayoría de los ejemplos durando entre 10 y 20 segundos.

En comparación con su predecesor, el 'Genie' original estaba limitado a juegos de plataformas 2D y funcionaba lentamente a un cuadro por segundo. En contraste, una versión no optimizada de Genie 2 funciona en tiempo real, aunque con calidad reducida.

Un objetivo clave de Genie 2 es entrenar agentes de IA, demostrado por el agente SIMA (Agente Multi-mundo Instructable Escalable) que ejecuta instrucciones en los entornos generados. El equipo de investigación espera abordar desafíos estructurales en el entrenamiento de agentes encarnados, esforzándose por alcanzar la amplitud necesaria para avanzar hacia la Inteligencia Artificial General (AGI).

Sin embargo, persisten desafíos, incluida la calidad variable de salida y la necesidad de mejorar la consistencia en interacciones más largas.

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.