Crawl-delay, Google e SEO: guida pratica

A cosa serve la direttiva crawl-delay?

1) A cosa serve la direttiva crawl-delay?
2) Come si imposta?
3) Motori di ricerca che supportano il crawl-delay
4) Google riconosce la direttiva crawl-delay?
5) crawl-delay ruled ignored: cosa vuol dire?
6) Devo impostare il crawl-delay?

Crawl-delay indica la frequenza di scansione suggerita ai bot di scansione dei motori di ricerca; nello specifico, la frequenza di crawling (ovvero l’operazione di scansione delle pagine di un sito web da parte di un motore di ricerca) definisce l’intervallo minimo, in secondi, tra le richieste consecutive che i crawler dovrebbero eseguire. Qui la parola chiave è proprio suggerita, perchè si tratta di un suggerimento per i motori e non tutti, ad oggi, supportano questa feature.

Guadagna criptovalute con il programma fedeltà di Youhodler

Il file robots.txt di alcuni siti molto grossi come Twitter, ad esempio, impone questo limite ad 1 secondo:

# Wait 1 second between successive requests. 
See ONBOARD-2698 for details.
Crawl-delay: 1

Come si imposta?

Dal file robots.txt, è sufficente inserire crawl-delay: seguito da uno spazio e la durata in secondi tra una scansione all’altra del crawler (vedi in seguito). Quindi, ad esempio:

crawl-delay: 10

indica un intervallo di scansione consigliato di 10 secondi.

Motori di ricerca che supportano il crawl-delay

Ad oggi ci sono:

Yahoo!

Bing

Yandex

tra i motori che riconoscono questa direttiva.

Google riconosce la direttiva crawl-delay?

In genere, no.

Google infatti decide la velocità di scansione di un sito in automatico, al fine di non appensantire il server e la velocità di caricamento dello stesso, per cui non è necessario specificare questa direttiva (che invece potrebbe essere utile per altri motori di ricerca come ad esempio Bing). Se un criterio di schedulazione statica del crawler – statica nel senso di basata su un intervallo predefinito di secondi – poteva essere valido fino a qualche anno fa, infatti, sappiamo che i server moderni sono perfettamente in grado di gestire richieste multiple contemporaneamente ad altissima velocità , per cui un limite del genere per Google non ha alcun senso (e Google è piuttosto smart in tal senso).

Se state editando il file robots.txt del vostro sito, la direttiva crawl-delay potrebbe suscitare più di un dubbio, specialmente se rapportata a Google (per cui non ha senso impostarla, a quanto pare). In effetti, specificare nel file robots.txt una cosa tipo:

crawl-delay: 2

significa imporre che il crawler debba aspettare 2 secondi tra una scansione (una crawl action, cioè un’azione di scansione che potrebbe anche riguardare una parte del sito) e la successiva.

crawl-delay ruled ignored: cosa vuol dire?

Google non da’ alcun peso a questa indicazione, tanto che in alcuni casi, nel tool della Search Console dedicato all’analisi del file robots.txt, potrebbe apparire una segnalazione di warning (errore non grave) tipo:

crawl-delay ruled ignored

ovvero direttiva ignorata o non supportata da Google, nello specifico, per le ragioni seguenti. La spiegazione ufficiale si trova nel video successivo, direttamente da John Mueller di Google, che ne conferma la non necessità .

Non è un errore, quindi, ma è soltanto un avviso per il webmaster del sito.

Devo impostare il crawl-delay?

In genere non è necessario, almeno se state indicizzando un sito su Google. Si può pensare quindi di rimuovere completamente la direttiva dal file robots.txt del proprio sito, limitandosi a farne uso per impedire al crawler di effettuare scansioni di specifiche, eventuali sottodirectory del proprio sito.

Se invece fate SEO per Bing o altri motori, può avere senso impostare questo limite a 1 o 2 per i siti di dimensioni molto grosse, appena arrivati sui motori e con molte pagine che sono state ignorate nella scansione in precedenza. Se il sito è piccolo, invece, non serve specificarla in nessun caso.

👇 Da non perdere 👇

📈 Analizza Cellulari 📱
🔐 AI che dolor, Chat
🎯 Targetizza Database SQL 🗄
📊 Analizza Errori più comuni 📛
🚧 Costruisci Evergreen 📟
👩‍💻 Programma Gratis 🎉
💻 Configura Hosting a confronto 💑
🔒 Conosci Hosting reti e domini 💻
👩‍💻 Tapioca Informatica 🖥
💻 Iconizza Internet 💻
🔒 Gestisci Lavoro 🔧
💡 Mostra Marketing & SEO 🌪
🔑 Apprendi Meteo ⛅
🤯 Visiona Mondo Apple 🍎
🔍 Supervisiona Mondo Domini 🌐
🚀 Metti in cloud monitoraggio servizi online 📈
🔮 Anatomizza Nuove tecnologie 🖥
🔒 Antani PEC e firma digitale 📩
👀 Prematura Programmare 🖥
🎮 Lonfa Scrivere 🖋
🔒 Conosci Servizi di SMS 📶
👀 Guarda Sicurezza informatica e privacy digitale 🖥
🎮 Ricorda Siti web 🌎
🤖 Ottimizza Spiegoni 🎓
🧠 Neuralizza Svago 🎈
📡 Quantizza Usare Excel 🌀
🤖 Sovrascrivi Windows 😲
🎨 Personalizza Wireless 🚁
🔑 Decifra WordPress 🤵
💬 Il nostro canale Telegram: iscriviti
🔵 Domini .BANK e .INSURANCE: cosa sono e come funzionano
🔵 Come editare il file hosts (per ogni sistema operativo)
🟢 TIMVision non funziona: che fare?

Questo portale esiste da 4460 giorni (12 anni), e contiene ad oggi 6365 articoli (circa 5.092.000 parole in tutto) e 11 servizi online gratuiti. – Leggi un altro articolo a caso 5/5 (1)