Che cos’è davvero un crawler, e quanti tipi ne esistono

Aggiornato il: 27-06-2022 08:00
Uno spider o crawler è un tipo di software in grado di automatizzare una certa scansione, ovvero la raccolta di informazioni da una rete che potrebbe essere, ad esempio, internet o il web. Mediante crawling ho la possibilità  di accedere ad un sito web e scansionarne sia link interni che link esterni, ripetendo ricorsivamente il procedimento per ulteriori siti con nome di dominio differente da quello corrente.

Per avere un’esempio intuito a portata di mano, un crawler funziona cosà¬: scansiona un catalogo di libri dentro una libreria, fornendo le informazioni tipicamente in formato strutturato (JSON, XML, …) ad un software che poi, in seguito, consentirà  al libraio di effettuare delle ricerche specifiche. I web crawler fanno lo stesso ma invece dei libri, scansionano le pagine web dei siti che nascono, vengono aggiornati ed eventualmente muoiono ogni giorno su internet.

I crawler più famosi sono ad esempio GoogleBot, il web crawler usato da Google che già  dal nome suggerisce l’idea che ti tratti di un bot ovvero un software automatico usato da Google. Grazie a questo bot l’azienda ha la possibilità  sia di scansione che di rilevare, mediante un processo successivo e ben distinto da quello di scansione, i contenuti rilevanti all’interno delle pagine web di uno o più domini internet.

In genere la risposta fornita in SERP dai crawler (ciò che vediamo nei risultati di ricerca, in sostanza) non è detto che sia direttamente legata al processo di scansione, che potrebbe avvenire in momenti differenti rispetto ad es. al ranking ed alla valutazione (parsing HTML) dei contenuti delle singole pagine. Alcuni blog SEO riportano informazioni imprecise in tal senso: il crawling è un processo distinto dall’indicizzazione di un qualsiasi contenuto, che a sua volta è diverso dal posizionamento della pagina, ma si tratta di tre processi distinti che avvengono generalmente in quest’ordine, almeno nella migliore delle ipotesi.

Un crawler può fissare come parametri di input:

Ads: scopri Keliweb ,il servizio di hosting italiano
  • il sito o dominio da scansionare;
  • la modalità  di scansione (ad es. se debba mettere in coda o meno altri siti web che incontri tra i link del dominio);
  • l’eventuale livello di profondità  della scansione, che in genere è pari a 2 oppure a 3 per motivi di efficenza.

Il crawler può essere denominato, nel caso di web crawler, equivalentemente anche spider o bot del motore di ricerca.

Crawler come software scaricabili

Ci sono almeno due software che sono in grado di emulare le funzionalità  di un crawler, per quanto poi ogni crawler “ragioni” a modo proprio:

  • Wget è usato in ambito Mac e Linux, ed è un crawler open source a riga di comando scritto in linguaggio C; viene usato per prelevare i contenuti di un sito, scansionarlo e farne uso assieme ai client FTP, ad esempio, nelle operazioni di manutenzione dei siti web.
  • HTTrack è usato principalmente sui sistemi operativi Windows, ha le stesse funzionalità  di un web crawler e permette di scaricarsi un sito in locale per poi consultarlo con calma anche senza connettività . àˆ stato scritto anch’esso in linguaggio C.

Crawler di Adsense

Google Adsense è uno dei sistemi più utilizzati per monetizzare un blog, e si basa su un meccanismo sempre più evoluto legato alla contestualizzazione degli annunci. Per fare questo, in fase preliminare, Adsense dispone di un proprio crawler, che scansiona ad oggi i contenuti delle pagine su cui viene inserito al fine di trarre informazioni su quali annunci mostrare. Non è possibile controllare o modificare dall’esterno la frequenza di scansionamento del crawler, che effettua una “passata” una volta o due ogni settimana, ma si può impedire a Google Adsense di effettuare il passaggio bloccandolo mediante direttive nel file robots.txt del sito.

Il crawler di Adsense effettua l’indicizzazione dei contenuti dell’URL, utilizzando tipicamente la versione canonica del dominio. Non segue gli hashbang del tipo site.com/#prova e qualora le “pagine originali” (codice di stato lato server: 200, in questo caso) rimandano ad altre pagine mediante redirect, il crawler andrà  ad accedere alle pagine originali per verificare il funzionamento del redirect stesso.

Ti potrebbe interessare:  HaLow: la nuova generazione di Wi-Fi per sfruttare internet ovunque

Il crawler di Google AdSense è diverso da quello usato da Google (che è diverso, a sua volta, da quello utilizzato da Google Search Console), anche se i primi due condividono la stessa cache.

Crawler di Search Console

Il web crawler di Google Search Console controlla e verifica la scansione on demand delle pagine web relative alle proprietà  dei nostri siti.

Per fare questo, in fase preliminare, Google Search Console dispone di un proprio crawler, che scansiona ad oggi i contenuti delle pagine su cui viene inserito al fine di trarre informazioni sulle pagine web da processare e mettere in coda successivamente per future elaborazioni. Non è più possibile controllare o modificare dall’esterno la frequenza di scansionamento del crawler, che effettua una “passata” una volta o due ogni settimana, ma si può impedire a Google Adsense di effettuare il passaggio bloccandolo mediante direttive nel file robots.txt del sito.

Il crawler di Adsense effettua l’indicizzazione dei contenuti dell’URL, utilizzando tipicamente la versione canonica del dominio. Non è in grado di seguire gli hashbang del tipo site.com/#prova e qualora le “pagine originali” (codice di stato lato server: 200, in questo caso) rimandano ad altre pagine mediante redirect, il crawler andrà  anche in questo caso ad accedere alle pagine originali per verificare il funzionamento del redirect stesso.

Il crawler di Google Search Console è diverso da quello usato da Google (che è diverso, a sua volta, da quello utilizzato da Google Adsense). Contrariamente a quello che potrebbe suggerire l’intuito, pertanto, questo crawler è diverso da quello utilizzato per poi mostrare i risultati di Google, e questo spiega possibilmente alcune discrepanze tra Google Search Console e Google.it o Google.com nei risultati di ricerca del sito. Motivo per cui potrebbe capitare che un sito non sia visibile dal crawler di Search Console e sia comunque presente nei risultati, per quanto siano capitate situazioni in cui il crawler di Search Console dava un’indicazione precisa in merito ai problemi di indicizzazione del sito (vedi il caso Siteground di qualche mese fa).

Quanti tipi di crawler esistono?

Ci sono varie tipologie di crawler, tra quelli commerciali a sorgente chiuso a quelli open source, utilizzabili soprattutto per personalizzare software e sperimentare attività  di vario genere. I crawler di Google possono essere per siti desktop e per siti mobile, ed in genere Google stessa può farne uso di più tipi, distinti tra loro, in modo da spiegare eventuali discrepanze (ad esempio un sito che risulta scansionato da Search Console e non da Google.it), senza contare che la scansione è solo una parte di un processo che interessa la SEO e che in realtà  è multi-strato (ad es. un sito può risultare scansionato e non indicizzato).

Photo by Robert Anasch on Unsplash



Questo blog pubblica contenuti ed offre servizi free da 11 anni. – Leggi un altro articolo a caso – Per informazioni contattaci
5/5 (2)

Ti sembra utile o interessante? Vota e fammelo sapere.

Che cos’è davvero un crawler, e quanti tipi ne esistono
robert anasch h7dl6upIOOs unsplash
Torna su