Reddit ha annunciato che sta aggiornando il Robots Exclusion Protocol (file robots.txt), che dice ai robot web automatizzati se sono autorizzati a scansionare un sito. Storicamente, il file robots.txt veniva utilizzato per consentire ai motori di ricerca di analizzare un sito indirizzare le persone al contenuto. Tuttavia, con l’avvento dell’intelligenza artificiale, i siti web vengono recuperati e utilizzati per addestrare modelli senza riconoscere l’effettiva fonte del contenuto. Insieme al file robots.txt aggiornato, l'azienda continuerà a limitare la velocità e a bloccare bot e crawler sconosciuti dall'accesso alla sua piattaforma. La società ha dichiarato al sito TechCrunch che bot e crawler saranno limitati o bloccati se non rispettano la politica sui contenuti pubblici di Reddit e non hanno un accordo con la piattaforma.
Reddit: le modifiche della piattaforma non riguarderanno tutti gli utenti
L'azienda afferma che l'aggiornamento non dovrebbe avere effetti sulla maggior parte degli utenti o degli attori in buona fede, come organizzazioni come Internet Archive. Tuttavia, ciò dovrebbe dissuadere le aziende di intelligenza artificiale dall’addestrare i loro grandi modelli linguistici sui contenuti Reddit. Naturalmente, i crawler AI potrebbero anche ignorare il file robots.txt di Reddit.
I prossimi cambiamenti non influenzeranno le aziende con cui Reddit ha già un accordo. Ad esempio, l’azienda ha un accordo da 60 milioni di dollari con Google. Questo consente a Big G di addestrare i suoi modelli di intelligenza artificiale sui contenuti della piattaforma social. Reddit segnala quindi ad altre aziende che desiderano utilizzare i dati di Reddit per la formazione sull’intelligenza artificiale che dovranno pagare. Come affermato dall'azienda in un post sul blog: "Chiunque acceda ai contenuti Reddit deve rispettare le nostre politiche, comprese quelle in atto per proteggere i redattori. Siamo selettivi riguardo alle persone con cui lavoriamo e con cui ci fidiamo dell'accesso su larga scala ai contenuti Reddit". L’annuncio non è una sorpresa, poiché l’azienda ha rilasciato alcune settimane fa una nuova policy progettata per guidare il modo in cui i dati di Reddit siano accessibili e utilizzati da entità commerciali e altri partner.