Cloudflare ha lanciato un tool gratuito per impedire ai bot di rubare i dati dai siti web ospitati sulla piattaforma per addestrare i modelli AI. Alcuni fornitori di intelligenza artificiale, tra cui Google, OpenAI e Apple, consentono ai proprietari di siti web di bloccare i bot che utilizzano per lo scraping dei dati e l'addestramento dei modelli modificando il robots.txt del loro sito. Tuttavia, non tutti gli AI scrapers lo rispettano. In un post sul suo blog, Cloudflare ha infatti dichiarato che: "i clienti non vogliono che i bot AI visitino i loro siti web, soprattutto quelli che lo fanno in modo disonesto. Temiamo che alcune aziende di intelligenza artificiale intenzionate a eludere le regole per accedere ai contenuti si adatteranno costantemente per eludere il rilevamento dei bot”.
Nel tentativo di risolvere il problema, Cloudflare ha analizzato il traffico di bot crawler AI per ottimizzare i modelli di rilevamento automatico dei bot. I modelli possono rilevare se un bot AI tenta di eludere il rilevamento imitando l’aspetto e il comportamento di qualcuno che utilizza un browser. Come scrive ancora Cloudflare: "quando i malintenzionati tentano di eseguire la scansione di siti web su larga scala, generalmente utilizzano strumenti e framework di cui siamo in grado di rilevare le impronte digitali. Sulla base di questi segnali, i nostri modelli [sono] in grado di contrassegnare in modo appropriato il traffico proveniente da robot AI evasivi come bot". Cloudflare ha creato un modulo per consentire agli host di segnalare bot e crawler AI sospetti. Inoltre, afferma che continuerà a inserire manualmente i bot AI nella blacklist.
Cloudflare: problema dei bot AI sempre più preoccupante
Il problema dei bot AI è recentemente diventato di grande rilievo. Molti siti, diffidenti nei confronti dei fornitori di intelligenza artificiale che addestrano modelli sui loro contenuti senza avvisarli o compensarli, hanno deciso di bloccare gli scraper e i crawler dell’intelligenza artificiale. Secondo uno studio, circa il 26% dei primi 1.000 siti sul web hanno bloccato il bot di OpenAI. Un altro studio ha mostrato che più di 600 editori di notizie avevano bloccato il bot. Il blocco, tuttavia, non è una protezione sicura. Come accennato in precedenza, alcuni fornitori sembrano ignorare le regole standard di esclusione dei bot per ottenere un vantaggio competitivo nella corsa all’intelligenza artificiale. Il motore di ricerca AI Perplexity è stato recentemente accusato di impersonare visitatori legittimi per prelevare contenuti dai siti web. Inoltre, si dice che OpenAI e Anthropic abbiano a volte ignorato le regole del file robots.txt.
In una lettera agli editori il mese scorso, la startup di licenze di contenuti TollBit ha affermato che, in effetti, vede “molti agenti AI” ignorare lo standard robots.txt. Strumenti come quelli di Cloudflare potrebbero aiutare, ma solo se si rivelano accurati nel rilevare bot di intelligenza artificiale. Inoltre, ciò non risolverà il problema più difficile degli editori che rischiano di sacrificare il traffico di riferimento proveniente da strumenti di intelligenza artificiale come le Panoramiche AI di Google, che escludono i siti che bloccano specifici crawler di intelligenza artificiale.