Come trovare le vecchie pagine dei siti con Google

Come trovare le vecchie pagine dei siti con Google

Introduzione

Google non è semplicemente un motore di ricerca delle pagine web: su periodi di tempo limitati, infatti, consente anche di cercare nello storico delle vecchie pagine. Mediante il celebre motore avremo la possibilità di trovare vecchie pagine dei siti, ad esempio cancellate o modificate senza preavviso. Anche se l’impostazione dipende dai singoli siti, infatti, Google è solito tenere una copia cache delle pagine, memorizzando il tutto in un archivio pubblico liberamente consultabile. Tali cache sono molto utili, ad esempio, per visualizzare i contenuti di un sito attualmente non disponibile, down o ad esempio scaduto o rimosso, ovviamente entro certi limiti di tempo. Quello che può essere anche interessante capire, in questa ricerca, è l’età delle pagine in cache, in quanto le pagine troppo vecchie potrebbero rilevarsi inutili o inadatte a noi.

A che serve la cache di Google

La cache di Google è una traccia delle vecchie pagine web, che possiamo utilizzare come archivio ricercabile. Ricordo a riguardo che:

  1. la cache di Google va bene per recuperare i contenuti delle pagine, non le sue funzionalità (almeno in generale è così);
  2. è utile per recuperare pagine statiche, cioè testo ed immagini;
  3. di solito è impossibile far funzionare pagine dinamiche/interattive da cache – ad esempio form, registrazione ai siti, chat e così via;
  4. la cache ha una durata variabile, per cui dopo un po’ potrebbe essere impossibile recuperarne i contenuti.

Le indicazioni che riporto di seguito sono utili sia per Windows che per Mac e Linux, e su qualsiasi browser abbiate: Safari, Chrome, Firefox, e sono utili sia per “addetti ai lavori” che per utenti ordinari che vorrebbero capire, ad esempio, perchè un sito non si apre e se dipenda dalla loro connessione o da altro.




Come cercare nella cache di Google

Il formato generico usato da Google per reperire pagine della cache è questo:

http://webcache.googleusercontent.com/search?q=cache:INDIRIZZOSITO

dove INDIRIZZOSITO è l’URL di cui volete reperire una copia in cache.

Ad esempio, poniamo di cercare nella cache di Google questo sito web (trovalost.it), aprendo il browser all’indirizzo:

http://webcache.googleusercontent.com/search?q=cache:trovalost.it

troveremo tutte le pagine di Trovalost.it messe, ad oggi, nella cache. Questo ovviamente non vale solo per la homepage, ma anche per le pagine interne. Se ad esempio cercassimo la copia in cache di http://salvatorecapolupo.it/informazioni-di-contatto:

http://webcache.googleusercontent.com/search?q=cache:http://salvatorecapolupo.it/informazioni-di-contatto

In genere questa procedura si usa spesso per reperire, entro certi limiti di tempo, la versione originale di una pagina che sia stata modificata nel tempo: ad esempio quella che conteneva informazioni che attualmente sono state cambiate, ovviamente “fidandosi” del crawler di Google e delle sue rilevazioni. Tenete conto del fatto che molti siti non hanno la cache abilitata o, se preferite, impediscono a Google di conservare una copia cache delle loro pagine.

Come cercare nella cache con Chrome

Su Chrome è anche disponibile la sintassi abbreviata, che è identica come significato alla precedente:

cache:INDIRIZZOSITO

Se vuoi saperne di più su come cercare queste informazioni (ed altre) attraverso Google, leggi la guida per cercare su Google mediante esempi.

Come cercare nella cache di Archive.org

In alternativa, uno storico delle pagine di un sito (con relative istantanee) è disponibile anche su archive.org, facendo una ricerca direttamente nello storico dell’indirizzo scomparso o cancellato, oppure mediante URL tipo:

https://web.archive.org/web/*/http://salvatorecapolupo.it

dove ovviamente http://salvatorecapolupo.it è l’indirizzo che stiamo cercando. In questo caso potremmo ritrovare le varie versioni delle pagine web archiviate per data, quindi in modo ancora più preciso di prima.

Web Hosting

Blocco della cache di Google da parte di un sito (robots.txt)

In alcuni casi i siti non permettono, mediante una particolare direttiva robots.txt, l’archiviazione delle proprie pagine web su Archive. Se volete evitare che il vostro sito sia memorizzato nella cache di Google, ci sono almeno due modi per farlo.

Il primo è quello di inserire un meta tag robots su noarchive all’interno delle singole pagine web:

<meta name="robots" content="noarchive">

il secondo è quello di sfruttare il robots.txt specificando il blocco della cache a Google:

User-Agent: Googlebot
Disallow: /

Fate attenzione che questa seconda impostazione in genere non è consigliata, perchè è vero che blocca la cache ma rimuove completamente il vostro sito da Google (anche le versioni attuali).

Ti piace questo articolo?

5 voti

Su Trovalost.it puntiamo sulla qualità dei contenuti da quando siamo nati: la tua sincera valutazione può aiutarci a migliorare ogni giorno.

Come trovare le vecchie pagine dei siti con Google

Votato 9.2 / 10, da 5 utenti