SEO: perchè non dovresti fare troppo il figo col file robots.txt

SEO: perchè non dovresti fare troppo il figo col file robots.txt

Il file robots.txt viene utilizzato per indicare – secondo uno standard ben definito detto Robots Exclusion Protocol – ai crawler dei motori di ricerca (Google, Bing, DuckDuckGo, …) cosa possono, e non possono scansionare all’interno del nostro sito. Detta alla grezza, il robots.txt dice ad un crawler cosa non può e cosa eventualmente dovrebbe scansionare, rispettivamente mediante direttive Disallow e Allow.

Sul web trovate guide eccellenti e molto chiare su come configurare questo file al meglio, cosa che qui non tratterò. Ma attenzione a non sopravvalutarne l’impatto! Di fatto, il file robots.txt può essere scritto in molti modi diversi, e (ripeto) non voglio entrare nel merito del cosa e del come bensì fare una considerazione relativa alla sicurezza.

Una tipica direttiva del robots.txt è fatta così:

User-agent: *
Disallow: /wp-admin/

E cosa c’è di male? Arrivo, finalmente, al punto.

Se scrivete tantissimi path nero su bianco nel vostro robots.txt, insomma, non state facendo altro che mettere nero su bianco a chiunque (compresi eventuali attaccanti informatici) la struttura delle cartelle del vostro sito.

Per capirci, provate a dare uno sguardo a robots.txt famosi, ad esempio di Google, di Bing, di Wikipedia , del sito della Casa Bianca ed altri ancora. Vi renderete conto da soli di quante informazioni “underground” potete ricavare da un file del genere.

In molti casi non mi è chiaro a cosa servano certe complicatissime configurazioni che ho visto in giro: la sitemap, forse? Ma quella possiamo segnalarla dal WMT, basta ed avanza. Deindicizzare risorse? Ma questo si fa sempre via WMT ed è diverso dal “suggerire” a Google o Bing di passare dalla risorsa X. E allora, in definitiva, ho l’impressione che il problema non sia altro che “quello che i webmaster ed i SEO sono convinti di poter fare mediante file robots.txt“:  un cazzo quasi niente, a fini pratici, salvo ovviamente casi particolari.

Il fatto che il robots.txt serva relativamente a poco per la SEO, e sia molto più utile invece in termini di hacking, visto che permette di far capire ad un attaccante informatico quali siano le cartelle vitali del sito, dovrebbe far riflettere su come debba essere scritto. In modo essenziale, se possibile.

Ad esempio, ho sempre ritenuto che le direttive Allow abbiano poco senso, dato che si tratta di un file che si limita a suggerire (non obbliga di sicuro) ai crawler e ad altri servizi web cosa non dovrebbero necessario scansionare. Molto meglio, a questo punto, perdere qualche minuto in più sul file htaccess, che peraltro non è quasi mai leggibile via browser (forbidden).

Del resto, basta sbirciare un robots.txt impeccabile dal punto di vista SEO per capire ad esempio se un sito è fatto col CMS ABC che magari ha una brutta falla o, come nel caso dell’ultimo sito citato, in Drupal. Certo, non basta da solo per subire un attacco e (credo) nessuno memorizzerà mai delle password o dei dati sensibili in un file del genere, ma ero piuttosto sicuro che analizzandoli in massa ne sarebbero usciti risultati interessanti.

Cosa che è stata fatta sul serio: secondo l’articolo di Darren Pauli su The Register, infatti, i robots.txt hanno permesso di scovare rapidamente documenti riservati all’interno delle directory del sito.

Esempio: potrebbe davvero essere una cattiva idea coinvolgere il robots.txt per avere l’illusion che non possano essere scansionati file che fanno parte della sezione premium del nostro sito (ad esempio miosito.it/topsecret/file-a-pagamento.pdf).

Eppure chiunque apra il file robots.txt contenente la direttiva:

User-agent: *
Disallow: /topsecret/

potrebbe trovare il PDF e scaricarselo gratis a nostra insaputa.

Poco male che si inserisca /wp-admin, anche perchè poco cambia, dato l’attacco brute force al nostro login deve essere impedito con ben altri mezzi.

A tale riguardo può essere formativo dare uno sguardo all’analisi (citata nell’articolo) dell’informatico francese Welmsteen, che ha mostrato alcuni casi critici sotto il punto di vista della sicurezza: tra le chicche, ha reperito dei documenti riservati che avrebbero dovuto essere deindicizzati, trovato parecchi robots.txt confusionari e/o inutili o errati, senza contare i due errori di fondo che riporto qui, e con cui concludo la consueta “predica” del venerdì.

Il primo errore consiste nel pensare che robots.txt agisca come meccanismo di controllo, quando in realtà è un semplice file di testo, non un eseguibile o un file contenente direttive vere e proprie.

Nota: moltissimi, per inciso, sbagliano allo stesso modo nel considerare il file htaccess col mod_rewrite un file che redireziona le pagine (in realtà mette in condizione il server di poterlo fare).

Il secondo errore, ancora più subdolo, consiste nel credere che un file creato per essere interpretato dai crawler motori di ricerca, per assurdo, non sia comunque leggibile dagli esseri umani.

Ti piace questo articolo?

0 voti

Su Trovalost.it puntiamo sulla qualità dei contenuti da quando siamo nati: la tua sincera valutazione può aiutarci a migliorare ogni giorno.

SEO: perchè non dovresti fare troppo il figo col file robots.txt

Il file robots.txt viene utilizzato per indicare – secondo uno …
0 0 utenti hanno votato questa pagina

Ti potrebbero interessare (Sicurezza informatica):

Cerca altro nel sito

Clicca sul box, e scegli la sezione per vederne i contenuti.

SEO: perchè non dovresti fare troppo il figo col file robots.txt

Il file robots.txt viene utilizzato per indicare – secondo uno …
0 0 utenti hanno votato questa pagina