Seguici su Telegram, ne vale la pena ❤️ ➡ @trovalost
Vai al contenuto

robots.txt: come impostarlo lato SEO senza sbagliare

Il Robots.txt è presente su quasi tutti i siti web, ed esprime un insieme di direttive rivolte, per l’appunto, ai robots o crawler dei vari motori di ricerca, in modo che gli spider stessi possano essere in qualche modo “indirizzati” a dovere.

Da sempre al centro dell’attenzione per le attività  SEO, il file robots.txt è perlopiù uno strumento che viene utilizzato a sproposito, soprattutto con l’idea che faccia “cose” che in realtà  non fa, e non è stato mai pensato per fare. Per combattere parte di cattiva informazione che ancora oggi spopola sul web in materia, cercheremo a questo punto di chiarire passo-passo le varie criticità  che lo riguardano.

Che cos’è il file robots.txt?

Il File robots.txt è un file di testo, come suggerito dall’estensione Chiamato tecnicamente protocollo di esclusione robot , si tratta di un file di testo che indica le regole e le restrizioni di scansione da applicare sulle pagine web di un sito. Il file è scritto in chiaro ed è pubblicamente disponibile sulla maggioranza dei siti web, ad esempio per il sito google.it si può trovare aprendo google.it/robots.txt.

Generalmente sono interessati al contenuto del file robots.txt gli addetti ai lavori (SEO e webmaster) oltre che i crawler dei motori di ricerca.

Il file robots.txt può inoltre essere sia fisico, cioè esattamente un file presente all’interno della root del server (a cui dovremo concedere permessi di scrittura, oppure può essere virtualizzato mediante plugin o addon del CMS del sito, “sovrascrivendo” eventualmente quello presente, in tal caso.

Protocolli supportati dal robots.txt

I protocolli utilizzati dal robots.txt sui siti sono HTTPS e HTTP, mediante una GET non condizionale. Google accetta eventuali robots.txt anche visibili via protocollo FTP, per la cronaca, mentre le GET e le PUT sono dette in gergo informatico anche request.

Visibilità  del file robots.txt

Ogni sito dovrebbe avere il proprio robots.txt che rimane valido per l’intero dominio. Se il sito è uno solo senza sottodomini, basta inserire un robots.txt che sia accessibile dalla cartella principale del sito (senza sottocartelle). Se invece uno stesso sito sito ha più versioni multilingua suddivise per URL o più sottodomini, bisogna fare più attenzione e verificare quello che viene effettivamente “visto” dentro ogni sottocartella o locazione di ogni sotto-sito. Queste indicazioni possono essere utili a seconda dei casi per i siti multilingua, i multi-siti in WordPress oppure i siti web composti da più sottodomini.

Queste sono le regole che segue Google nella sua documentazione ufficiale (vedi a fine articolo il link).

  1. Un file robots.txt in un dominio è valido solo per quel dominio. Quindi ad esempio http://www.example.com/robots.txt vale per http://www.example.com, ma non per http://pippo.example.com/
  2. Se un dominio non ha configurato correttamente il CNAME del prefisso www, example.com/robots.txt sarà  valido per example.com ma non per www.example.com
  3. Un file robots.txt in un dominio è valido per tutte le sottocartelle di quel dominio. Quindi ad esempio http://www.example.com/robots.txt vale sia per http://www.example.com/abc che per per http://www.example.com/xyz
  4. HTTPS: per rendere correttamente visibile un file robots.txt è anche necessario che il protocollo TLS, se disponibiel, sia correttamente configurato e non presenti problemi di mixed content: per intenderci, http://www.example.com/robots.txt non è visibile per https://www.example.com/ a meno che non ci sia un opportuno redirect da HTTP a HTTPS.
Ti potrebbe interessare:  Come scegliere i domini per la link building

A cosa serve il robots.txt

Il file utilizza una sintassi molto semplice che permette al webmaster di definire le “aree” o path che sono attraversabile da un crawler di motore di ricerca oppure no.

Non per forza come file nel filesystem: uso nei CMS (WordPress, Joomla!, …) e robots.txt

Il fatto che sia un file .txt non implica automaticamente che sia un file fisicamente rintracciabile via FTP: molti CMS come ad esempio WordPress lo virtualizzano, cioè lo rendono reperibile da browser senza conservarne una copia come file all’interno di /htdocs o /www. In questi casi bisogna intervenire sul file ed editarlo via CMS, diversamente sarà  necessario crearlo come file ed editarlo cosà¬, caricandolo ad esempio via SSH oppure FTP, avendo l’accortezza di disattivare quello virtualizzato eventualmente generato dal plugin per evitare complicazioni tecniche.

Sintassi del file robots.txt

In genere ci sono una serie di righe, dentro questo tipo di file. ognuna delle quali è scritta con questa sintassi generale:

direttiva: valore

quindi avremmo ad esempio:

User-agent: *

oppure:

Disallow: /pippo/

Le due indicazioni “suggeriscono” (e non obbligano, attenzione) i motori a fare questo:

  • user-agent: * definisce un qualsiasi (*) crawler (Bing, Google, ecc.) per cui varrà  la direttiva successiva
  • Disallow: / indica un blocco sulla directory indicata (/pippo/) in fase di GET o POST, quindi sostanzialmente il download del file da parte del crawler di Google.

La direttiva indica il tipo di istruzione o “suggerimento” che stiamo dando al crawler, mentre il valore dopo i due punti indica il riferimento della direttiva. Esempi di user-agent possono essere i browser web, i crawler dei motori, i lettori multimediali, i client di posta e naturalmente.

Come specificare la posizione della sitemap nel robots.txt

La posizione della sitemap XML in un file robots.txt si possono specificare cosà¬:

Sitemap: https://www.google.com/sitemap.xml

Sono ammesse più sitemap, se necessario: basta ripetere più volte la stessa riga con gli URL corrispondenti.

Come inserire un commento nel robots.txt

I commenti in un file robots.txt si possono inserire con un # come primo carattere della riga:

# Come se fosse antani

Ad oggi non esiste una sintassi unificata per il robots.txt, per cui non tutti gli user-agent sono in grado di riconoscere ogni direttiva.

robots.txt permissivo al massimo (esempio)

Per permettere l’accesso a tutto il sito web (va bene in molti casi pratici):

User-agent: *
Disallow:

Bloccare un intero sito (esempio)

Per bloccare un intero sito dalla scansione di qualsiasi crawler:

User-agent: *
Disallow: /

Bloccare un’intera directory di un sito

Per bloccare lo scaricamento di una directory allo stesso modo:

User-agent: *
Disallow: /directory/

Disallow: bloccare una pagina specifica di un sito

Per bloccare una pagina, bisognerà scrivere nel file robots.txt:

User-agent: *
Disallow: /pagina.html

Direttiva allow

Google è in grado di riconoscere anche la direttiva allow, per consentire la scansione di una sezione specifica, ad esempio possiamo avere robots.txt misti (di seguito ad esempio stiamo consentendo a tutti (*) di scansionare le cartelle /about e /howsearchworks, e stiamo suggerendo di non farlo alla cartella /search)

User-agent: *
Disallow: /search
Allow: /search/about
Allow: /search/howsearchworks

robots.txt oppure .htaccess?

Non bisogna fare confusione tra le indicazioni che vengono date al robots.txt (che sono in genere facoltative da seguire per i motori) e quelle di un file di direttive come ad esempio .htaccess (che sono direttive obbligatorie per tutti). Le seconde, in genere, sovrastano tecnologicamente le prime, nel senso che hanno sempre la precedenza a parità  di condizioni espresse. Se ad esempio in un file robots.txt lasciamo tutto scansionabile:

User-agent: * 
Disallow:

ma poi esiste un blocco per la home del sito che richieda username e password, il sito non sarà  scansionabile nè indicizzabile.

Nel contesto di server Apache, ad esempio, il file .htaccess da’ delle direttive che il server è obbligato ad eseguire, e che valgono per motori di ricerca, bot e utenti. Il file robots.txt è invece un file che indica dei “suggerimenti” per i crawler in modo da facilitarne il lavoro (e come molte cose cose “in buonafede”, in molti casi ha un’utilità  ed una portata limitate).

Ti potrebbe interessare:  Come capire se un sito web è a pagamento

Errori comuni sul file robots.txt (da evitare)

I comandi del file robots.txt non sono regole che tutti i crawler devono seguire, ma sono piuttosto linee guida per l’accesso ai siti. Googlebot e altri web crawler affidabili seguono le istruzioni contenute in un file robots.txt, ma non è detto che altri crawler facciano altrettanto.

Utilizzarlo per nascondere sottodirectory interne di un sito. Attenzione, questo sistema è insicuro! In molti casi capitano robots.txt di siti in WordPress che presentano disallow sulla cartella wp-admin, wp-content o wp-include. Per quanto non sia sbagliato concettualmente, non si tratta di un procedimento ottimale: prima di tutto, cosଠfacendo, stiamo mettendo in chiaro un’informazione molto utile per eventuali attacchi informatici, cioè che il nostro sito è fatto in WordPress e che al suo interno potrebbero esserci informazioni riservate. In secondo luogo anche se i crawler affidabili rispettano le istruzioni di un file robots.txt, altri potrebbero interpretarle in modo imprevedibile. Per garantire la reale sicurezza delle informazioni riservate, ti consigliamo di utilizzare altri metodi di blocco, come la protezione mediante password dei file privati presenti sul tuo server (htaccess).

Utilizzarlo per nascondere una pagina ai motori. Attenzione, non serve a questo! Sebbene Google non esegua la scansione o l’indicizzazione dei contenuti bloccati dal file robots.txt, potrebbe comunque trovare e indicizzare un URL non consentito dal robots mediante un backlink esterno. Di conseguenza, l’indirizzo URL e, potenzialmente, anche altre informazioni disponibili pubblicamente, quali l’anchor text nei link che rimandano alla pagina, potrebbero continuare a essere visualizzati nei risultati della Ricerca Google. Per evitare che l’URL venga visualizzato nei risultati di Google, si suggerisce ancora una volta di proteggere tramite password i file sul server oppure usare il meta tag noindex, cambiare l’URL di risposta con uno diverso da 200 o rimuovere del tutto la pagina (404).

Fonte: Google Developers, Photo by Lenin Estrada on Unsplash

Da non perdere 👇👇👇



Trovalost esiste da 4438 giorni (12 anni), e contiene ad oggi 4022 articoli (circa 3.217.600 parole in tutto) e 12 servizi online gratuiti. – Leggi un altro articolo a caso
5/5 (1)

Ti sembra utile o interessante? Vota e fammelo sapere.

Questo sito contribuisce alla audience di sè stesso.
Il nostro network informativo: Lipercubo.it - Pagare.online - Trovalost.it.