Meta: Llama addestrato con materiale protetto da copyright

Link copiato negli appunti

L’utilizzo dell’AI è letteralmente esploso in popolarità negli ultimi, in gran parte grazie a ChatGPT, il popolare chatbot con modello di linguaggio di grandi dimensioni (LLM) di OpenAI. I modelli alla di questi chatbot sono addestrati su set di dati di origine umana, che possono includere materiale protetto da copyright. Le preoccupazioni sul copyright nell'AI non sono uno scherzo e questi problemi hanno già portato a molteplici azioni legali. L’ultima di queste riguarda una nuova causa presentata alla Corte distrettuale degli Stati Uniti per il distretto settentrionale della California, che accusa Meta di aver addestrato i suoi modelli di AI Llama su un set di dati di ebook e articoli piratati, presumibilmente con l'approvazione di Mark Zuckerberg.

Alcuni attori, tra cui Sarah Silverman, sostengono che Meta ha utilizzato LibGen, un "aggregatore di link", come set di dati per addestrare Llama. Il documento del tribunale afferma: “Il set di dati Libgen è un set di dati ombra, o piratato, che contiene opere di grandi editori come Cengage Learning, Macmillan Learning, McGraw Hill e Pearson Education (che hanno tutti intentato causa per bloccare la pirateria da parte di LibGen)”.

Meta: rimosse illegalmente informazioni sul copyright dai dati

Apparentemente, Meta ha testimoniato l'anno scorso di aver utilizzato LibGen per addestrare i suoi modelli Llama con il permesso di Zuckerberg. La causa sostiene anche che dopo che Meta ha raschiato i dati da LibGen, ha tentato di eliminare tutte le informazioni di copyright dai materiali che aveva preso. Sempre secondo quanto riportato dal tribunale: "è ormai chiaro che Meta ha illegalmente rimosso le informazioni sulla gestione del copyright ('CMI') dalle opere dichiarate dai querelanti utilizzate per addestrare i suoi modelli Llama, al fine di facilitare e nascondere una violazione diffusa del copyright”.

Gli attori sostengono che la decisione di Meta di eliminare LibGen e utilizzare i suoi dati per addestrare Llama costituisce una violazione del CDAFA (California Comprehensive Computer Data Access and Fraud Act). Per gettare benzina sul fuoco, lo scienziato capo dell'intelligenza artificiale di Meta, Yann LeCun, ha scatenato una reazione negativa l'anno scorso quando ha suggerito su X (ex Twitter) che gli autori di libri dovrebbero rendere le loro opere liberamente disponibili. Ad oggi non si ha ancora un verdetto in merito al caso di Meta. Tuttavia, la battaglia è ben lungi dall'essere finita. Quella contro la società di Zuckerberg è solo una delle tante cause legali sul copyright che potrebbero verificarsi nei prossimi anni.

Meta: Llama addestrato con materiale protetto da copyright

Meta: rimosse illegalmente informazioni sul copyright dai dati

Ti consigliamo anche

VLC includerà sottotitoli AI in tempo reale per i video

Perplexity annuncia nuova partnership con TripAdvisor

Grok per iOS: app standalone è ora disponibile negli Stati Uniti

Daily Listen: Google può trasformare il feed Discover in podcast AI