DeepMind, laboratorio di ricerca AI di Google, afferma che sta sviluppando una tecnologia basata sull’intelligenza artificiale per generare colonne sonore per i video. In un post sul suo blog ufficiale, DeepMind rivela di vedere la tecnologia V2A (video-to-audio), come un pezzo essenziale del puzzle multimediale generato dall’intelligenza artificiale. Sebbene molte organizzazioni abbiano già sviluppato modelli AI per generare video, questi non possono creare effetti sonori da sincronizzare. Secondo Google: “i modelli di generazione video stanno avanzando a un ritmo incredibile, ma molti sistemi attuali possono generare solo output silenziosi. La tecnologia V2A [potrebbe] diventare un approccio promettente per dare vita ai film generati dall’AI”.
La tecnologia V2A di DeepMind prende la descrizione di una colonna sonora (ad esempio "meduse che pulsano sott'acqua, vita marina, oceano") abbinata a un video per creare musica, effetti sonori e persino dialoghi che si adattano ai personaggi e al tono del video, contrassegnati dalla tecnologia SynthID, per combattere i deepfake. Sempre secondo l’azienda, il modello AI che alimenta V2A è stato addestrato su una combinazione di suoni e trascrizioni di dialoghi, nonché su clip video. Come ricorda ancora l’azienda: “tramite l'addestramento su video, audio e annotazioni aggiuntive, la nostra tecnologia impara ad associare eventi audio specifici a varie scene visive, rispondendo al contempo alle informazioni fornite nelle annotazioni o trascrizioni”.
DeepMind: V2A è ancora imperfetta e non verrà rilasciata presto
DeepMind afferma che la sua tecnologia V2A è unica in quanto può comprendere i pixel grezzi di un video. In questo modo può sincronizzare automaticamente i suoni generati con il video, facoltativamente senza descrizione. V2A non è perfetto e l’azienda lo riconosce. Poiché il modello non è stato addestrato su molti video con modificati o distorti, in questi casi non crea audio di qualità particolarmente elevata. In generale, l’audio generato non sembra essere molto convincente. Per tale ragione, questa tecnologia AI non verrà rilasciata presto al grande pubblico. Come ricorda l’azienda: “prima di prendere in considerazione l’apertura dell’accesso ad un pubblico più ampio, la nostra tecnologia V2A sarà sottoposta a rigorose valutazioni e test di sicurezza”.
DeepMind presenta la sua tecnologia V2A come uno strumento particolarmente utile per gli archivisti e le persone che lavorano con filmati storici. Ma l’intelligenza artificiale generativa in questo senso minaccia anche di sconvolgere l’industria cinematografica e televisiva. Ci vorrà una tutela del lavoro davvero forte per garantire che gli strumenti dei media generativi non eliminino posti di lavoro – o, a seconda dei casi, intere professioni.