I contenuti generati dall'intelligenza artificiale stanno diventando piuttosto popolari ultimamente. La scorsa settimana, OpenAI ha rilasciato Sora, un modello text-to-video progettato per creare clip brevi e di alta qualità. Il problema più grande di Sora è che questo modello è limitato a 20 secondi e fornisce contenuti HD (1080p). A distanza di pochi giorni dall’annuncio di OpenAI, la divisione DeepMind di Google ha annunciato la nuova versione di Veo, il suo generatore di video AI. Veo 2 si presenta come un modello capace di competere in tutto con Sora, se non superarlo. Secondo DeepMind, Veo 2 può creare video 4K completi che possono durare fino a 2 minuti.
DeepMind ha condiviso un esempio di Veo 2 sul proprio canale YouTube. Si tratta di un video creato da un prompt molto dettagliato. Il prompt utilizzato da Google riporta: “questo piano medio, con una profondità di campo ridotta, ritrae una graziosa ragazza dei cartoni animati con i capelli castani ondulati, seduta dritta in una cucina degli anni '80. I suoi capelli sono di media lunghezza e ondulati. Ha un piccolo naso leggermente all'insù e piccole orecchie arrotondate. È molto animata e contenta mentre parla alla telecamera”.
Veo 2: modello non ancora perfetto con scene o movimenti complessi
A differenza del predecessore, Veo 2 ha allucinazioni "meno frequenti" e include la filigrana invisibile SynthID. Google sta lanciando il nuovo generatore video su VideoFX (in Google Labs) e "ampliando il numero di utenti che possono accedervi", ma c'è ancora una lista d'attesa. Questo strumento dovrebbe arriverà su "YouTube Shorts e altri prodotti l'anno prossimo", ma non è ancora stata rilasciata una data ufficiale. Sebbene questi esempi siano sbalorditivi, vale la pena menzionare che DeepMind li ha probabilmente selezionati per mostrare il meglio di ciò che Veo 2 può fare. Com’è normale immaginare, non è tutto perfetto. Tra le limitazioni di questo nuovo Veo vi è la generazione di scene o movimenti complessi. Attualmente, questo modello non è ancora in grado di dare il meglio con prompt di questo genere. Tuttavia, è possibile che questo gap venga superato una volta che DeepMind lancerà il tool in via ufficiale.