Crawl-delay, Google e SEO: guida pratica

Argomenti:
Pubblicato il: 12-11-2021 16:45

A cosa serve la direttiva crawl-delay?

Crawl-delay indica la frequenza di scansione suggerita ai bot di scansione dei motori di ricerca; nello specifico, la frequenza di crawling (ovvero l’operazione di scansione delle pagine di un sito web da parte di un motore di ricerca) definisce l’intervallo minimo, in secondi, tra le richieste consecutive che i crawler dovrebbero eseguire. Qui la parola chiave è proprio suggerita, perchè si tratta di un suggerimento per i motori e non tutti, ad oggi, supportano questa feature.

Il file robots.txt di alcuni siti molto grossi come Twitter, ad esempio, impone questo limite ad 1 secondo:

# Wait 1 second between successive requests. 
See ONBOARD-2698 for details.
Crawl-delay: 1

Come si imposta?

Dal file robots.txt, è sufficente inserire crawl-delay: seguito da uno spazio e la durata in secondi tra una scansione all’altra del crawler (vedi in seguito). Quindi, ad esempio:

crawl-delay: 10

indica un intervallo di scansione consigliato di 10 secondi.

Motori di ricerca che supportano il crawl-delay

Ad oggi ci sono:

Yahoo!

Bing

Yandex

tra i motori che riconoscono questa direttiva.

Google riconosce la direttiva crawl-delay?

In genere, no.

Google infatti decide la velocità di scansione di un sito in automatico, al fine di non appensantire il server e la velocità di caricamento dello stesso, per cui non è necessario specificare questa direttiva (che invece potrebbe essere utile per altri motori di ricerca come ad esempio Bing). Se un criterio di schedulazione statica del crawler – statica nel senso di basata su un intervallo predefinito di secondi – poteva essere valido fino a qualche anno fa, infatti, sappiamo che i server moderni sono perfettamente in grado di gestire richieste multiple contemporaneamente ad altissima velocità, per cui un limite del genere per Google non ha alcun senso (e Google è piuttosto smart in tal senso).

Se state editando il file robots.txt del vostro sito, la direttiva crawl-delay potrebbe suscitare più di un dubbio, specialmente se rapportata a Google (per cui non ha senso impostarla, a quanto pare). In effetti, specificare nel file robots.txt una cosa tipo:

crawl-delay: 2

significa imporre che il crawler debba aspettare 2 secondi tra una scansione (una crawl action, cioè un’azione di scansione che potrebbe anche riguardare una parte del sito) e la successiva.

crawl-delay ruled ignored: cosa vuol dire?

Google non da’ alcun peso a questa indicazione, tanto che in alcuni casi, nel tool della Search Console dedicato all’analisi del file robots.txt, potrebbe apparire una segnalazione di warning (errore non grave) tipo:

crawl-delay ruled ignored

ovvero direttiva ignorata o non supportata da Google, nello specifico, per le ragioni seguenti. La spiegazione ufficiale si trova nel video successivo, direttamente da John Mueller di Google, che ne conferma la non necessità.

SMSHosting Usa il codice PROMO per uno sconto sul primo acquisto: PRT96919

Non è un errore, quindi, ma è soltanto un avviso per il webmaster del sito.

SMSHosting Usa il codice PROMO per uno sconto sul primo acquisto: PRT96919

Devo impostare il crawl-delay?

In genere non è necessario, almeno se state indicizzando un sito su Google. Si può pensare quindi di rimuovere completamente la direttiva dal file robots.txt del proprio sito, limitandosi a farne uso per impedire al crawler di effettuare scansioni di specifiche, eventuali sottodirectory del proprio sito.

Se invece fate SEO per Bing o altri motori, può avere senso impostare questo limite a 1 o 2 per i siti di dimensioni molto grosse, appena arrivati sui motori e con molte pagine che sono state ignorate nella scansione in precedenza. Se il sito è piccolo, invece, non serve specificarla in nessun caso.

Nessun voto disponibile

Che te ne pare?

Grazie per aver letto Crawl-delay, Google e SEO: guida pratica di Salvatore Capolupo su Trovalost.it
Crawl-delay, Google e SEO: guida pratica (Guide, Zona Marketing)

Articoli più letti su questi argomenti:

Seguici su Telegram: @trovalost