DeepMind, l'organizzazione di ricerca sull'intelligenza artificiale di Google, ha svelato un modello in grado di generare una varietà "infinita" di mondi 3D giocabili. Chiamato Genie 2, il modello, successore di Genie di DeepMind, uscito all'inizio di quest'anno, può generare una scena interattiva in tempo reale da una singola immagine e descrizione testuale. Ciò è simile ai modelli in fase di sviluppo da parte della società di Fei-Fei Li, World Labs, e della startup israeliana Decart. DeepMind sostiene che Genie 2 può generare una "vasta diversità di mondi 3D ricchi", inclusi mondi in cui gli utenti possono compiere azioni come saltare e nuotare usando un mouse o una tastiera. Addestrato su video, il modello è in grado di simulare interazioni di oggetti, animazioni, illuminazione, fisica, riflessi e il comportamento di "NPC".
Genie 2: modello in grado di generare mondi coerenti
Molte delle simulazioni di Genie 2 sembrano videogiochi AAA. Il motivo di ciò potrebbe essere che i dati di training del modello contengono playthrough di titoli popolari. Com’era prevedibile, DeepMind non ha voluto rivelare molti dettagli sui suoi metodi di sourcing dei dati. Tuttavia, essendo una sussidiaria di Google, DeepMind ha accesso illimitato a YouTube. Inoltre, Google ha precedentemente lasciato intendere che i suoi ToS le danno il permesso di usare i video di YouTube per la formazione dei modelli. L’azienda afferma che Genie 2 può generare mondi coerenti con diverse prospettive, come viste in prima persona e isometriche, per un massimo di un minuto.
In un post sul blog DeepMind ha rivelato che: "Genie 2 risponde in modo intelligente alle azioni intraprese premendo i tasti di una tastiera, identificando il personaggio e muovendolo correttamente. Ad esempio, il nostro modello [può] capire che i tasti freccia dovrebbero muovere un robot e non alberi o nuvole". La maggior parte dei modelli come questo possono simulare giochi e ambienti 3D, ma con problemi di artefatti, coerenza e allucinazioni. Questo modello può ricordare parti di una scena simulata che non sono visibili e renderle in modo accurato quando diventano di nuovo visibili.
Google ha investito svariate risorse nella sua ricerca sul modello world, che promette di essere la prossima grande novità nell'intelligenza artificiale. A ottobre, DeepMind ha assunto Tim Brooks, che era a capo dello sviluppo del generatore video Sora di OpenAI, per lavorare sulle tecnologie di generazione video e sui simulatori di mondi. E due anni fa, il laboratorio ha sottratto Tim Rocktäschel, meglio conosciuto per i suoi esperimenti di "apertura" con videogiochi come NetHack, da Meta.