Il web scraping è una tecnica informatica che consente di estrarre dati da siti web in modo automatico, utilizzando programmi software. Questi programmi, chiamati “scraper” o “bot”, simulano la navigazione umana per raccogliere informazioni che altrimenti dovrebbero essere copiate e incollate manualmente.

In altri termini, il web scraping è uno strumento molto potente per la raccolta dati, ma la sua legalità e le sue implicazioni etiche dipendono dall’uso che se ne fa. Per chi gestisce un sito web, è fondamentale adottare una combinazione di misure tecniche e legali per proteggere i propri dati da utilizzi non autorizzati.

Vedi anche Come non farsi copiare il sito

Come funziona il web scraping

Il processo di web scraping, in linea di massima, si articola in diverse fasi:

Invio della richiesta HTTP: Lo scraper invia una richiesta HTTP al server del sito web di interesse, come se fosse un browser tradizionale.
Ricezione della risposta: Il server risponde inviando il codice HTML della pagina web.
Parsing del contenuto: Lo scraper analizza il codice HTML per identificare gli elementi che contengono i dati desiderati (testo, immagini, link, ecc.). Questo avviene spesso utilizzando selettori basati su tag HTML, classi CSS o espressioni XPath.
Estrazione dei dati: Una volta individuati gli elementi, lo scraper estrae i dati specifici.
Archiviazione dei dati: I dati estratti vengono salvati in un formato strutturato (ad esempio, CSV, JSON, Excel, database) per essere facilmente accessibili e utilizzabili.

Contenuti statici vs. dinamici:

Contenuti statici: Sono quelli direttamente presenti nel codice HTML della pagina al momento del caricamento. Sono più semplici da estrarre.
Contenuti dinamici: Vengono generati o caricati dopo il caricamento iniziale della pagina, spesso tramite JavaScript che effettua richieste aggiuntive al server (API). Per estrarre questi dati, gli scraper devono simulare un comportamento più complesso, come l’interazione con la pagina o l’esecuzione di JavaScript.

Il web scraping ha molteplici applicazioni, sia lecite che illecite:

Ricerca di mercato: Analisi dei prezzi dei prodotti della concorrenza, monitoraggio delle tendenze di mercato.
Aggregazione di notizie: Raccolta di articoli da diverse fonti per creare un feed personalizzato.
Generazione di lead: Estrazione di contatti (email, numeri di telefono) per scopi di marketing (attenzione al GDPR!).
Ricerca accademica: Raccolta di dati per studi e analisi.
Monitoraggio di cambiamenti: Rilevare modifiche in un sito web, come la disponibilità di un prodotto o le variazioni di prezzo.
Verifica di contenuti: Assicurarsi che i propri contenuti non vengano copiati e ripubblicati senza autorizzazione.

Come proteggersi dal web scraping

Proteggere il proprio sito web dal web scraping non autorizzato è una sfida complessa, poiché i bot diventano sempre più sofisticati. Tuttavia, esistono diverse strategie, sia tecniche che legali:

Misure tecniche:

File robots.txt: Questo file indica ai “crawler” (bot che rispettano le indicazioni) quali parti del sito non dovrebbero essere scansionate. Tuttavia, gli scraper malevoli possono ignorarlo.
CAPTCHA e reCAPTCHA: Richiedere agli utenti di risolvere un CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) può bloccare i bot, ma può anche peggiorare l’esperienza utente.
Rate Limiting: Limitare il numero di richieste che un singolo indirizzo IP può effettuare in un determinato periodo di tempo. Un numero eccessivo di richieste può indicare un’attività di scraping.
Blocco degli indirizzi IP: Bloccare indirizzi IP noti per attività di scraping o che mostrano comportamenti sospetti (ad esempio, richieste molto rapide o da geolocalizzazioni insolite).
User-Agent spoofing detection: I bot spesso utilizzano user-agent generici o falsi. Monitorare e bloccare richieste con user-agent sospetti può aiutare.
Honeypot: Inserire link o campi invisibili agli utenti umani, ma che i bot seguiranno o cercheranno di compilare. Questo permette di identificare e bloccare gli scraper.
Modifica frequente della struttura HTML: Cambiare regolarmente la struttura del codice HTML può rendere più difficile per gli scraper adattarsi e continuare a estrarre dati.
Utilizzo di servizi anti-bot: Esistono soluzioni commerciali e servizi cloud specializzati nella rilevazione e nel blocco dei bot e delle attività di scraping.
Aree riservate/autenticazione: Rendere i dati accessibili solo dopo la registrazione e l’autenticazione.
Disabilitazione del tasto destro/selezione testo: Non è una misura infallibile, ma può ostacolare lo scraping manuale semplice.

Misure legali

Termini di servizio (ToS): Inserire clausole esplicite nei termini di servizio che vietano il web scraping non autorizzato. È possibile ad esempio un’accettazione “click-wrap” (l’utente deve cliccare per accettare) per rafforzare la validità legale, anche se ciò va bilanciato con un’adeguata analisi dell’usabilità del sito stesso.
Diritto d’autore: Il web scraping di contenuti protetti da diritto d’autore (testi, immagini, video originali) senza autorizzazione può configurare una violazione del copyright, con conseguenze legali.
Violazione di diritti sui database: In alcuni casi, il web scraping può violare i diritti sui database, soprattutto se si tratta di collezioni di dati significative.
Concorrenza sleale: Se il web scraping viene utilizzato per ottenere un vantaggio sleale sulla concorrenza, può essere configurata la concorrenza sleale.
GDPR e privacy: L’estrazione di dati personali tramite web scraping è soggetta alle normative sulla protezione dei dati (come il GDPR in Europa). È fondamentale assicurarsi di avere una base giuridica valida per il trattamento dei dati e adottare misure come l’anonimizzazione dei dati personali.