Sempre più siti web bloccano l’accesso all’AI: ecco perché

Al giorno d’oggi tanti siti web bloccano l’accesso all’AI: tale pratica ha dei lati positivi ma c’è anche uno scotto da pagare.

Fino a pochi anni fa l’unico problema dei gestori dei siti web era rapportarsi con Google e con i motori di ricerca. Adesso invece è necessario muoversi su due fronti: quello dei motori di ricerca e quello delle intelligenze artificiali. Anzi posso dire con certezza che la linea di separazione tra i due si sta sempre più assottigliando: quindi bloccare certi bot IA può limitare la propria visibilità nei motori di ricerca futuri basati su IA.

Come comportarsi? Non applicare un blocco ai bot AI è comunque una scelta che può avere ricadute positive e negative, così come decidere di applicare il blocco. Cerchiamo di capire insieme i pro e i contro di questa pratica di impedire ai crawler di intelligenza artificiale di indicizzare i contenuti del proprio sito web.

Le contraddizioni dell’Intelligenza Artificiale: ecco come funzionano i modelli di AI

Prima di capire perché molti siti web bloccano l’accesso all’AI, dobbiamo avere ben presente come funziona l’AI.
Un modello di intelligenza artificiale è un sistema matematico/statistico che apprende schemi e relazioni nei dati. Generalmente l’obiettivo è capire un testo, un’immagine o un video e generare un contenuto simile a quello umano. L’addestramento di un modello di intelligenza artificiale avviene in due fasi.

Durante la fase di pre-addestramento il modello riceve enormi quantità di dati e impara a predire l’informazione successiva, data una sequenza di partenza.
Nella fase di addestramento fine (o fine-tuning) il modello viene affinato. Spesso un gruppo di persone valuta i contenuti prodotti e il sistema usa questi feedback per migliorarsi tramite tecniche come il reinforcement learning.

Ma dove trova questi dati? Qui sta la contraddizione e la pericolosità di questi sistemi. I modelli sono addestrati su siti accessibili liberamente (Wikipedia, forum, blog, articoli di siti web non protetti da copyright e senza blocchi), libri digitali, codici di dominio pubblico, copie del web, ecc.

Gli errori che quotidianamente vediamo nei contenuti fatti dall’Intelligenza artificiale derivano proprio da questi elementi. Prima di tutto dal fatto che sono modelli statistici: non hanno una vera comprensione delle cose, non hanno coscienza o capacità intuitiva, semplicemente riconoscono schemi e fanno previsioni probabilistiche. Ad esempio, se rilevano la frase “Oggi splende” faranno la previsione che dopo ci sia la parola “sole”, perché l’hanno vista spesso in quel contesto (non perché vedono che fuori c’è effettivamente il sole). I contenuti generati dall’AI quindi spesso non sono verificati.

L’altro grosso problema è che i dati su cui sono addestrate le AI sono generati da esseri umani, sono disponibili e open source. L’AI non ha accesso ai siti web che hanno un blocco, sono a pagamento o hanno contenuti protetti da copyright senza licenza (es. articoli dietro paywall o contenuti privati). E questi ultimi potrebbero essere contenuti più attendibili e veritieri rispetto a quelli open!

Come si bloccano i bot AI?

Abbiamo capito quindi che i bot di intelligenza artificiale navigano il web per analizzare, archiviare o copiare dati dai siti. Tutte le informazioni raccolte vengono poi impiegate per addestrare i loro stessi modelli.

Molti proprietari di siti web non approvano queste pratiche di copia e di riutilizzo dei loro contenuti e desiderano proteggerli. Quindi iniziano a mettere dei blocchi, con la conseguenza che le aziende AI hanno accesso a meno informazioni da usare per addestrare i loro modelli.
Inoltre rimangono disponibili per l’indicizzazione solo i siti meno professionali e meno attendibili, col risultato che i contenuti generati dall’AI contengono grossi problemi in termini di qualità e veridicità. Questo rallenta non di poco i progressi futuri dell’AI.

Ma come avviene effettivamente un blocco di un bot AI? La pratica è più semplice di quello che si pensa: è sufficiente modificare il file robots.txt del proprio sito aggiungendo delle righe specifiche con una dicitura per vietare l’accesso ai singoli bot. Sta ai crawler AI rispettare o meno tale richiesta ma è comunque un segnale forte che non va sottovalutato o bypassato.

Con questo semplice metodo, nel 2023 quasi il 20% dei 1.000 siti web più visitati al mondo stava bloccando i crawler AI. Secondo un nuovo studio pubblicato il 3 agosto 2024 da Originality.AI, questa percentuale è salita in un anno al 35% ed è più alta in determinati Paesi come gli Stati Uniti, dove supera il 70%.

The Guardian, The New York Times, CNN e altri grandi editori hanno bloccato l’accesso all’AI perché preoccupati per l’utilizzo indebito dei loro contenuti. Anche Amazon, Quora e Indeed sono tra i grandi siti che hanno già implementato il blocco.

Le motivazioni di tale pratica riguardano principalmente la violazione del copyright, la mancanza di consenso e compensazione nell’uso dei dati, la perdita di traffico e visibilità online (meno utenti sui loro siti e quindi meno entrate pubblicitarie).

Diversamente dai motori di ricerca come Google, che portano traffico ai siti, i crawler AI non restituiscono valore diretto ai creatori di contenuti: gli utenti ottengono informazioni direttamente dall’interfaccia di AI e non navigano nei siti di riferimento.

C’è una soluzione per mettere fine a questa battaglia tra siti web e AI?

Lo scoglio principale da superare in questo ambito è l’assenza di leggi specifiche sull’uso dei contenuti protetti da copyright da parte dell’intelligenza artificiale. ​Attualmente, non esiste un’autorità unica in grado di emanare leggi globali vincolanti, anche se diverse organizzazioni internazionali e iniziative multilaterali stanno lavorando per stabilire norme condivise e promuovere una governance etica dell’AI.​

La questione sta raggiungendo un portata ormai ingestibile: gli esperti stimano che entro pochi anni, fino al 90% dei contenuti online potrebbe essere generato dall’AI. Già oggi oltre 400 siti pubblicano notizie generate da AI senza controllo, danneggiando il giornalismo autentico e plagiando l’informazione.

Presto saremo invasi da troppi contenuti, di dubbia qualità, senza riuscire a distinguere il vero dal falso perché ci sarà un continuo riciclo di errori e pregiudizi.

Alcuni editori stanno esplorando la possibilità di concedere in licenza i propri contenuti alle aziende AI, ma le trattative sono ancora in fase iniziale, ed ecco perchè nel frattempo molti siti web bloccano l’accesso all’AI. Altre aziende invece hanno già intrapreso azioni legali contro le aziende AI che avrebbero utilizzato i dati senza consenso, bypassando i famosi blocchi del file robots.txt

Dal punto di vista dei siti web quindi bloccare i crawler protegge i loro contenuti e le entrate pubblicitarie, ma può ridurre la visibilità nei motori di ricerca IA, creando un conflitto tra protezione del contenuto e scoperta online.

Sempre più siti web bloccano l’accesso all’AI: ecco cosa potrebbe succedere ai modelli AI

Proviamo ora a immaginare cosa potrebbe succedere ai modelli di AI in un futuro non molto lontano. Le conseguenze sono grottesche ed è già nato un termine per indicare il collasso di questi sistemi: AUTOFAGIA. Cosa significa?

Se un’AI viene addestrata su contenuti generati da altre AI (anziché su testi umani), la sua qualità peggiora, diventando prevedibile e priva di varietà. L’AI infatti prende i dati dal web, ma nel web ci sono dati generati dalla stessa AI. Il sistema è quindi destinato a collassare, perché l’AI “mangia” i propri contenuti, degenerando.

In futuro quindi il valore dei contenuti realmente umani aumenterà? Anche i principali esperti non sanno prevedere cosa succederà. L’unica certezza è che i problemi stanno emergendo molto prima del previsto.

Intanto, vi suggerisco questo sito di statistiche che vi mostra in tempo reale quanti siti al mondo stanno bloccando i crawler di AI e quali sono quelli maggiormente bloccati: AI BOT Blocking. Come potete notare il grafico mostra una linea in salita per tutti i principali bot AI, segno che sempre più siti web stanno cercando di proteggere i loro contenuti, in attesa di una regolamentazione internazionale.

Se volete leggere altri approfondimenti sull’intelligenza artificiale vi suggerisco “Scrivere testi con l’AI: 9 motivi per cui ti penalizzerà” e “3 errori ortografici di ChatGPT che forse non hai mai notato

Fonti: Anxios “Major websites are blocking AI crawlers” (31/08/2023)
PPC Land “Top websites increasingly block AI Web Crawlers (03/08/2024)