INTELLIGENCE / News

WEB SCRAPING E AI GENERATIVA: LE POSSIBILI MISURE DI CONTRASTO

Elisa Gorra - 28/06/2024

Il web scraping, un termine inglese che significa “gettare”, si riferisce al processo di raccolta automatizzata di dati disponibili online. Questa tecnica viene utilizzata dalla maggior parte dei motori di ricerca per estrarre specifiche informazioni dalle pagine web, consentendo così agli utenti di rimanere costantemente aggiornati. È un metodo capace di ricavare una grande quantità di informazioni, tra cui dati di contatto, indirizzi e-mail, numeri di telefono, termini di ricerca individuali o URL. Lo scraping diventa illegale quando i dati raccolti vengono utilizzati in modi che compromettono la privacy e la sicurezza delle informazioni personali, soprattutto se impiegati attraverso sistemi di Intelligenza artificiale generativa.

Il web scraping, come già specificato, comporta la raccolta di informazioni e dati riconducibili ad una persona fisica. In tale contesto si pone senza dubbio un problema di protezione dei dati personali. È necessario È necessario identificare una base giuridica adeguata secondo quanto stabilito dall’art. 6 del RGDP (Regolamento generale sulla protezione dei dati). Tale individuazione deve avvenire nel rispetto del principio di accountability, previsto dall’art. 5, par. 2, del RGDP.

A tal proposito, è utile ricordare che ogni titolare del trattamento di dati personali può rendere disponibili al pubblico tali dati sono per delle specifiche finalità, in base alle condizioni prevista dall’art. 6 del Regolamento. Queste condizioni includono, ad esempio, obblighi di trasparenza, pubblicità legale, procedure a evidenza pubblica, diritto di cronaca e contratti in essere con gli interessati.

La valutazione della liceità del web scraping deve essere effettuata caso per caso, considerando i vari diritti in gioco. La navigazione sul web si basa su protocolli aperti che permettono di raccogliere informazioni e dati pubblicamente disponibili online. Nel contesto digitale, i bot più noti utilizzati sono i web crawler (chiamati anche “spider”) dei motori di ricerca. Si tratta di programmi che estraggono dati dalle pagine web. Si parla invece di web scraping tale questa estrazione indiscriminata di dati è accompagnata dalla memorizzazione e conservazione delle informazioni raccolte per utilizzi futuri. Le attività di web scraping possono avere molteplici finalità, alcune delle quali decisamente malevole. Si considerino, ad esempio, le frodi digitali, il furto di credenziali, gli attacchi DDoS, i tentativi di login forzato e lo scalping. Tra gli scopi di queste attività vi è anche l’addestramento di algoritmi di Intelligenza artificiale generativa. Gli sviluppatori di AI generativa possono infatti utilizzare dataset ottenuti tramite scraping autonomo.

In questo contesto, il Garante per la protezione dei dati personali ritiene utile fornire indicazioni significative ai gestori di siti web e piattaforme online operanti in Italia, evidenziando le precauzioni che possono essere adottate per limitare gli effetti del web scraping. Tutte le misure devono essere implementate con l’obiettivo di impedire l’uso non autorizzato dei dati personali pubblicati.

Tra le principali misure si indicano le seguenti:

Clausole ad hoc nei termini di servizio (ToS): l’aggiunta di un esplicito divieto sull’uso di tecniche di web scraping rappresenta una clausola contrattuale che consente ai gestori di intraprendere azioni legali per far valere l’inadempimento contrattuale da parte dell’altra parte. Questo strumento preventivo speciale contribuisce a garantire una maggiore protezione dei dati personali.
Sorveglianza della rete: al fine di rilevare anticipatamente anomalie nei flussi di dati in entrata e in uscita da un sito web e di implementare adeguate strategie di protezione e sicurezza.
Creazione di aree riservate: si tratta di aree alle quali si può accedere solo una previa registrazione. Tale misura rappresenta una valida cautela in quanto sottrae dati alla pubblica disponibilità. Tale tipologia di misura può contribuire ad una maggiore tutela dei dati personali rispetto ad attività di web scraping.

L’intelligenza artificiale generativa porta molti di vantaggi per la collettività, che non possono essere limitati ma che devo essere controllati allo stesso tempo. I gestori dei siti web e delle piatteforme online, fermi restando gli obblighi di adozione di misure di sicurezza, di pubblicità, devono valutare caso per caso quando risulti necessario sottrarre i dati personali a terze parti adottando misure di contrasto come quelle sopraindicate.