Non far indicizzare un sito su Google: come fare?

Question

Accepted Answer

Quando si lavora su un sito web si potrebbe riscontrare una necessità concreta: vogliamo lavorare in santa pace sul nostro sito, senza che lo stesso sia visibile su Google nè venga indicizzato o sia visibile ai soliti ficcanaso. Per farlo ci sono diverse piccole accortezze che si possono utilizzare, ma bisogna anzitutto conoscerle molto bene per poterle usare nel modo più adeguato. Se la SEO infatti si occupa di valorizzare le pagine più interessanti di un sito sui motori, questa specie di "anti-SEO" serve a garantire riservatezza e tranquillità a chi ad esempio sta solo cercando di testare il proprio sito, lavorarci coi colleghi, farlo vedere ad un amico e cosà¬ via. Passiamo subito in rassegna, quindi, i principali strumenti del mestiere che potremo utilizzare.

Strumenti utili: i meta-tag NOINDEX, NOFOLLOW

Una qualsiasi pagina HTML può essere resa invisibile ai motori di ricerca utilizzando questo semplice meta tag:

che nella pagina web completa assume questa forma:

...

Si tratta di un'indicazione univoca per il nostro sito web, non visibile a chi visita il sito con un normale browser, che impedisce di indicizzare la pagina corrente (NOINDEX) e di seguire eventuali link al suo interno (NOFOLLOW). Questo è lo strumento di gran lunga più utilizzato, ad esempio, sia per evitare l'indicizzazione di un sito web sia per rimuovere da Google le pagine indesiderate.

Strumenti utili: il file robots.txt

La mitologia (sbagliata e fuorviante) su questo semplice file è cosa ben nota sul web, tanto che ancora oggi troviamo pagine web che parlano disinvoltamente di questo argomento dando indicazioni sbagliate ai webmaster, a volte suggerendo fantomatiche direttive non esistenti nello standard, a volte dando interpretazioni fuori dal mondo allo stesso. La verità è presto detta: il robots.txt può servire a suggerire ad un motore di ricerca di non scaricare una certa pagina, e ciò possiede come diretta conseguenza il fatto che sia possibile rimuovere porzioni di sito web o di directory sfruttandola (ed utilizzando la Search Console di Google subito dopo). Si tratta di una semplice indicazione facoltativa che i motori possono non rispettare (e che ad esempio risaputamente non rispettano, se esiste ad esempio un link casuale in ingresso al sito), per cui non è opportuno fare affidamento esclusivamente su di essa. La forma tipica di un robots.txt massimamente permissivo (nessuna limitazione nello scaricamento delle pagine da parte dello spider dei motori, infatti lo user-agent è un asterisco ad indicare tutti gli spider) è la seguente:

User-agent: *
Disallow:

Di conseguenza per evitare lo scaricamento da parte di Google (e la conseguente scansione) di una pagina specifica 123.html e della root del sito dovrete scrivere nel file una cosa del genere:

User-agent: *
Disallow: /123.html
Disallow: /

Attenzione che queste direttive possono essere dannose se il sito, ad esempio, rimane in quest'ultimo modo ed avrete invece piacere nel vederlo su Google. Se il sito è già stato accidentalmente indicizzato, niente panico: guardate la sezione successiva in cui si parla della Search Console di Google.

Strumenti utili: le direttive del file htaccess

Quando si vuole impedire ad un sito di essere accessibile dall'esterno abbiamo varie modalità per farlo, e la modifica del file htaccess (ammesso che il nostro sito giri sotto server Apache) è certamente una delle più potenti disponibili: il problema, in questo caso, è che non c'è modo di modificarlo in modo dilettantesco come è invece possibile fare con altre impostazioni, perchè basta un piccolo impercettibile errore ed il sito smetterà di funzionare. Con il file htaccess (il punto iniziale è notazione Linux per indicare che è un file nascosto) che dovrebbe essere sempre sul server di solito con permessi 644, è altresà¬ possibile effettuare cose molto interessanti: proteggere il proprio sito con una password, impedire selettivamente a motori o utenti di accedere al sito e cosà¬ via. Nello specifico, possiamo fare in modo che un sito pubblico sia disponibile solo dal nostro indirizzo IP e sia "invisibile" dall'esterno (sia a motori che utenti). Vediamo subito come fare questa cosa. Se quindi ammettiamo che manutenzione.html sia una pagina statica inserita nella root del vostro sito (dove ad esempio scriverete "lavori in corso, tornate a trovarci più tardi"), e che 123.123.456.xxx sia il vostro indirizzo IP, con questa semplice direttiva copia-incollata nel file .htaccess potrete impedire a chiunque di accedere al vostro sito, dirottandolo temporaneamente (redirect 302, diverso dal redirect 301 che invece è permanente) su una pagina di "lavori in corso". Ecco il file htaccess da utilizzare per rendere il vostro sito invisibile a chiunque tranne che a voi (per trovare il vostro indirizzo IP con precisione potete sfruttare questo servizio del nostro sito).


 RewriteEngine on
 RewriteCond %{REMOTE_ADDR} !^123\.123\.456\.xxx
 RewriteCond %{REQUEST_URI} !/manutenzione.html$ [NC]
 RewriteCond %{REQUEST_URI} !\.(jpe?g?|png|gif) [NC]
 RewriteRule .* /manutenzione.html [R=302,L]

Strumenti utili: la Search Console di Google

In tutto questo discorso, la Search Console di Google - ovviamente per quanto riguarda "l'invisibilità " su Google - gioca un ruolo molto importante: dopo aver soddisfatto i pre-requisiti di cui sopra potrete controllare se il sito è su Google e, se lo fosse diventato ad esempio accidentalmente, risolvere il problema. Per rimuovere pagine accidentalmente inserite su Google, andate su Indice Google e poi su Rimozione URL. Da là¬ seguendo le istruzioni potrete fare tutto quello che vi serve, fermo restando quanto scritto sopra.

Miti da sfatare: il robots.txt

In molti casi chi realizza un sito un WordPress tende ad affidarsi alla possibilità di rendere il sito "invisibile" da Impostazioni -> Lettura -> Visibilità sui motori di ricerca. La spunta "Scoraggia i motori di ricerca ad effettuare l'indicizzazione di questo sito" è molto indicativa e certamente è corretto farne uso, ma c'è un problema di fondo: come dice WP stesso, "è compito dei motori di ricerca onorare o meno questa richiesta". Quindi non fate l'errore di fare affidamento su questa possibilità perchè la realtà è meno banale di cosà¬, e seguite le indicazioni che vi ho fornito in precedenza.

Come NON fare indicizzare un sito su Google

Strumenti utili: i meta-tag NOINDEX, NOFOLLOW

Strumenti utili: il file robots.txt

Strumenti utili: le direttive del file htaccess

Strumenti utili: la Search Console di Google

Miti da sfatare: il robots.txt

👇 Da non perdere 👇

Come NON fare indicizzare un sito su Google

Strumenti utili: i meta-tag NOINDEX, NOFOLLOW

Strumenti utili: il file robots.txt

Strumenti utili: le direttive del file htaccess

Strumenti utili: la Search Console di Google

Miti da sfatare: il robots.txt

👇 Da non perdere 👇

Guarda anche:

Guarda anche: