Reddit impedirà ai crawler AI di scansionare la piattaforma

Link copiato negli appunti

Reddit ha annunciato che sta aggiornando il Robots Exclusion Protocol (file robots.txt), che dice ai robot web automatizzati se sono autorizzati a scansionare un sito. Storicamente, il file robots.txt veniva utilizzato per consentire ai motori di ricerca di analizzare un sito indirizzare le persone al contenuto. Tuttavia, con l’avvento dell’intelligenza artificiale, i siti web vengono recuperati e utilizzati per addestrare modelli senza riconoscere l’effettiva fonte del contenuto. Insieme al file robots.txt aggiornato, l'azienda continuerà a limitare la velocità e a bloccare bot e crawler sconosciuti dall'accesso alla sua piattaforma. La società ha dichiarato al sito TechCrunch che bot e crawler saranno limitati o bloccati se non rispettano la politica sui contenuti pubblici di Reddit e non hanno un accordo con la piattaforma.

Reddit: le modifiche della piattaforma non riguarderanno tutti gli utenti

L'azienda afferma che l'aggiornamento non dovrebbe avere effetti sulla maggior parte degli utenti o degli attori in buona fede, come organizzazioni come Internet Archive. Tuttavia, ciò dovrebbe dissuadere le aziende di intelligenza artificiale dall’addestrare i loro grandi modelli linguistici sui contenuti Reddit. Naturalmente, i crawler AI potrebbero anche ignorare il file robots.txt di Reddit.

I prossimi cambiamenti non influenzeranno le aziende con cui Reddit ha già un accordo. Ad esempio, l’azienda ha un accordo da 60 milioni di dollari con Google. Questo consente a Big G di addestrare i suoi modelli di intelligenza artificiale sui contenuti della piattaforma social. Reddit segnala quindi ad altre aziende che desiderano utilizzare i dati di Reddit per la formazione sull’intelligenza artificiale che dovranno pagare. Come affermato dall'azienda in un post sul blog: "Chiunque acceda ai contenuti Reddit deve rispettare le nostre politiche, comprese quelle in atto per proteggere i redattori. Siamo selettivi riguardo alle persone con cui lavoriamo e con cui ci fidiamo dell'accesso su larga scala ai contenuti Reddit". L’annuncio non è una sorpresa, poiché l’azienda ha rilasciato alcune settimane fa una nuova policy progettata per guidare il modo in cui i dati di Reddit siano accessibili e utilizzati da entità commerciali e altri partner.

Reddit impedirà ai crawler AI di scansionare la piattaforma

Reddit: le modifiche della piattaforma non riguarderanno tutti gli utenti

Ti consigliamo anche

Tredici lingue racchiuse in un'app: scopri Babbel, ora a metà prezzo

ITA Airways, promo limitata: viaggia in Economy in Italia a partire da 45 euro

Come vedere la finale di Ballando con le stelle in diretta dall'estero

I vantaggi di imparare una nuova lingua con questo metodo innovativo