Reddit sta apportando importanti modifiche per proteggere la sua piattaforma dai crawler dell'intelligenza artificiale. L'azienda ha annunciato un aggiornamento del proprio protocollo di esclusione dei robot (file robots.txt), che regola l'accesso dei bot web automatizzati ai contenuti del sito.
In passato, il file robots.txt era utilizzato principalmente per consentire ai motori di ricerca di scansionare i siti web e indirizzare gli utenti ai contenuti pertinenti. Tuttavia, con l'avvento dell'intelligenza artificiale, si è verificato un aumento del web scraping, ovvero la pratica di estrarre automaticamente dati da siti web senza il consenso dei proprietari. Questo ha spinto Reddit a rivedere le sue politiche per distinguere tra bot "buoni" e quelli "cattivi".
Il nuovo aggiornamento mira a proteggere i contenuti di Reddit limitando o bloccando l'accesso ai bot e ai crawler che non rispettano la Politica sui contenuti pubblici di Reddit e che non hanno un accordo con la piattaforma. I bot legittimi, come quelli utilizzati dai motori di ricerca o da organizzazioni di ricerca come Internet Archive, non dovrebbero subire alcun impatto.
Qual è l'obiettivo principale di Reddit?
Le aziende che desiderano utilizzare i dati di Reddit per l'addestramento dell'IA dovranno stipulare un accordo con la piattaforma. Reddit ha già un accordo con Google per questo scopo, dimostrando la sua volontà di collaborare con attori legittimi e di garantire che l'utilizzo dei dati avvenga in modo responsabile.
La maggior parte degli utenti e degli attori in buona fede non dovrebbero essere interessati da queste modifiche. L'obiettivo principale è contrastare le aziende di intelligenza artificiale che utilizzano i contenuti di Reddit senza autorizzazione e senza riconoscere la fonte.
Questo è particolarmente importante in un momento in cui le accuse contro la startup di intelligenza artificiale Perplexity, accusata di aver raschiato contenuti dal sito senza autorizzazione, hanno messo in luce i rischi associati al web scraping non autorizzato. Reddit è determinato a proteggere i propri contenuti e a garantire che i dati vengano utilizzati in modo responsabile.