Più di 170.000 video di YouTube fanno parte di un enorme set di dati utilizzato per addestrare i sistemi AI di alcune grandi aziende tecnologiche. Ciò è quanto emerge da un'indagine di Proof News e pubblicata in collaborazione con Wired. Tra le aziende che hanno utilizzato i dati dei "sottotitoli di YouTube" estratti dalla piattaforma video senza autorizzazione compaiono anche Apple, Anthropic, Nvidia e Salesforce. Il set di dati di addestramento è una raccolta di sottotitoli presi da video di YouTube. Questi appartenengono a più di 48.000 canali e non include le immagini dei video. Nel set di dati compaiono video di creator famosi come MrBeast e Marques Brownlee. Inoltre, sono incluse clip di organi di informazione come ABC News, BBC e il New York Times.
Il set di dati dei sottotitoli di YouTube fa parte di una raccolta più ampia di materiale dell'organizzazione no-profit EleutherAI chiamata The Pile. Si tratta di una raccolta open source che contiene anche set di dati di libri, articoli di Wikipedia e altro ancora. L’anno scorso, un’analisi di un set di dati chiamato Books3 ha rivelato quali opere erano state utilizzate per addestrare i sistemi di intelligenza artificiale. Il set di dati è stato poi usato come prova in cause legali dagli autori contro le aziende che lo utilizzavano per addestrare l’intelligenza artificiale.
YouTube: aziende poco trasparenti sull’addestramento dell’AI
Le aziende di intelligenza artificiale raramente sono volontariamente trasparenti riguardo ai dati che entrano nei loro sistemi di intelligenza artificiale. Il modo in cui vengono utilizzati nello specifico i contenuti di YouTube è stata una questione chiave negli ultimi mesi. A marzo, quando OpenAI ha presentato il suo potente strumento di generazione video, Sora, il CTO Mira Murati ha ripetutamente eluso le domande sul fatto che il sistema fosse addestrato sui video di YouTube. In alcune interviste passate, il CEO di YouTube Neal Mohan ha affermato che l’uso di contenuti video per addestrare l’intelligenza artificiale – comprese le trascrizioni – violerebbe i termini della piattaforma.
A maggio, in un episodio di Decoder, il CEO di Google Sundar Pichai concordava con la valutazione di Mohan secondo cui se OpenAI avesse effettivamente addestrato Sora sui contenuti di YouTube, avrebbe infranto i termini di YouTube. Come ricordato da Pichai: “Abbiamo termini e condizioni e ci aspetteremmo che le persone rispettino tali termini e condizioni quando costruisci un prodotto, quindi è così che mi sento al riguardo”. Non è ancora chiaro se questa nuova indagine avrà risvolti legali o no, ma è probabile che lo scopriremo nei prossimi mesi.