Google DeepMind hat 'Genie 2' vorgestellt, eine fortschrittliche KI, die interaktive 3D-Umgebungen aus Einzelbildern generieren kann, um KI-Agenten zu trainieren.
Dieses 'Foundation World Model' kann komplexe 3D-Welten erschaffen, in denen sowohl Menschen als auch KI-Agenten mit Tastatur und Maus interagieren können. Demovideos zeigen die Fähigkeit, physikalische Effekte wie Gravitation, Rauch und Wasserreflexionen zu modellieren und dabei die Konsistenz der Umgebung zu wahren sowie das Verhalten von NPCs zu simulieren.
Technisch gesehen ist Genie 2 ein autoregressives, latentes Diffusionsmodell, das auf einem großen Videodatensatz trainiert wurde. Es kann generierte Welten bis zu einer Minute lang konsistent aufrechterhalten, wobei die meisten Beispiele zwischen 10 und 20 Sekunden dauern.
Im Vergleich zu seinem Vorgänger war das ursprüngliche 'Genie' auf 2D-Plattformspiele beschränkt und arbeitete mit nur einem Bild pro Sekunde. Im Gegensatz dazu läuft eine nicht optimierte Version von Genie 2 bereits in Echtzeit, jedoch mit reduzierter Qualität.
Ein Hauptziel von Genie 2 ist das Training von KI-Agenten, wie am Beispiel des SIMA-Agenten (Scalable Instructable Multiworld Agent) zu sehen ist, der in den generierten Umgebungen Anweisungen ausführen kann. Das Forschungsteam hofft, strukturelle Herausforderungen beim Training von verkörperten Agenten zu lösen und die Breite zu erreichen, die für Fortschritte in Richtung Künstlicher Allgemeiner Intelligenz (AGI) erforderlich ist.
Dennoch gibt es noch Herausforderungen, darunter schwankende Ausgabequalität und die Notwendigkeit, die Konsistenz bei längeren Interaktionen zu verbessern.