Google DeepMind Présente 'Genie 2' pour des Environnements 3D Interactifs

Édité par : Veronika Nazarova

Google DeepMind a lancé 'Genie 2', une IA avancée capable de générer des environnements 3D interactifs à partir d'images uniques, destinée à former des agents IA.

Ce 'Modèle de Monde Fondamental' peut créer des mondes 3D complexes où les humains et les agents IA peuvent interagir à l'aide d'un clavier et d'une souris. Les vidéos de démonstration mettent en avant sa capacité à modéliser des effets physiques tels que la gravité, la fumée et les reflets de l'eau tout en maintenant la cohérence de l'environnement et en simulant le comportement des personnages non-joueurs (PNJ).

Techniquement, Genie 2 est un modèle de diffusion latente autoregressif formé sur un grand ensemble de données vidéo. Il peut maintenir des mondes générés pendant jusqu'à une minute, la plupart des exemples durant entre 10 et 20 secondes.

Comparé à son prédécesseur, le 'Genie' original était limité aux jeux de plateforme 2D et fonctionnait lentement à une image par seconde. En revanche, une version non optimisée de Genie 2 fonctionne en temps réel, bien qu'à une qualité réduite.

Un objectif clé de Genie 2 est de former des agents IA, comme le montre l'agent SIMA (Agent Multi-monde Instructible Évolutif) exécutant des instructions dans les environnements générés. L'équipe de recherche vise à résoudre des défis structurels dans la formation des agents incarnés, en s'efforçant d'atteindre l'étendue nécessaire aux avancées vers l'Intelligence Artificielle Générale (AGI).

Cependant, des défis demeurent, notamment une qualité de sortie variable et la nécessité d'améliorer la cohérence lors d'interactions prolongées.

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.