Come cercare su Google le vecchie pagine web

Argomenti: ,
Pubblicato il: 14-03-2021 12:30 , Ultimo aggiornamento: 14-03-2021 12:29

Se hai perso le pagine web del tuo sito e non avevi fatto un backup, puoi provare a cercarle nella cache di Google.

Recuperare contenuti scomparsi o cancellati per errore da un sito web, senza avere una copia da nessuna parte: in questi casi Google potrebbe diventare un alleato prezioso. In molti casi, infatti per recuperare il contenuto di una pagina web si può cercare direttamente nella cache del motore di ricerca, ma anche in quella di un altro motore come Bing, o ancra sfruttando la memoria cache di web.archive.org

Sono tutte alternative equivalenti per soddisfare lo stesso scopo. Quando il sito crasha e non avevamo backup, questa procedura può aiutare a ricostruire il sito e ripristinare quantomeno la parte statica del sito (quindi gli articoli o le pagine chi siamo), ma non ovviamente quella dinamica (la pagina contatti o il carrello dell’ecommerce andranno necessariamente reistallati nel nuovo sito).

Mediante Google abbiamo la possibilità molto interessante di recuperare le vecchie pagine web, sia di siti noti che di siti di altri, e questo può essere utile per recuperare in extremis contenuti di cui non abbiamo un backup o che comunque abbiamo cancellato per errore o che, ancora, sono scomparsi ad es. in seguito al crash del nostro sito.

Vedremo nell’ordine come fare le varie cose, non prima di aver premesso qualche piccolo dettaglio importante da conoscere.

Si possono recuperare pagine web cancellate per sbaglio grazie a Google?

È davvero possibile recuperare pagine web vecchie, relative ad esempio a downtime di un sito, articoli cancellati per errore oppure che interessa recuperare per altri motivi? Diciamo che in questi casi si procede per approssimazioni ed in modo diverso a seconda dei casi, e per dare una risposta netta diciamo che sì, fino a un certo punto sì, è possibile farlo. In questo articolo vedremo i principali strumenti che si possono usare per recuperare pagine internet o articoli cancellati per errore da qualsiasi sito, ammesso che non sia passato troppo tempo.

Quando è possibile recuperare le pagine?

Avete perso tutti o una parte degli articoli del vostro blog? Giustamente vi troverete nel panico ma qualche tentativo di recupero si può fare senza dubbio. Ci sono delle tecniche da usare per provare a recuperare, e per quanto nessuna di queste possa dare l’assoluta certezza del successo, rimangono quantomeno da provare: anche perché in questi casi, una volta perso tutto o quasi, un tentativo si può sempre fare, e tanto vale provarci.

Cos’è la cache di Google

La cache di Google consiste in una copia temporizzata, o meglio datata nel breve periodo, del contenuto di una pagina web. Mediante cache posso vedere com’era la pagina in un determinato giorno, e questo mi aiuta a recuperare i contenuti che magari ho cancellato per errore dal sito e di cui non possiedo il backup. A seconda di come era impostato il sito e della sua durata della cache, possiamo recupare dalla cache:

  • il testo della pagina (che c’è quasi sempre);
  • i file CSS e JS;
  • immagini e video solitamente no, ma dipende;
  • i Google Fonts utilizzati (basta guardare nel markup HTML quali erano utilizzati).

Recuperare la pagina con l’operatore cache: di Google

Al fine di poter reperire le vecchie pagine web archiviate da Google, Google mette a disposizione un operatore di ricerca molto facile da usare, che si chiama (con poca fantasia) cache, e si usa come segue:

cache:miodominio.com/nomepagina.html

e che si usa semplicemente scrivendolo e, senza spazi, facendolo seguire dall’URL della pagina che ci interessa recuperare dalla cache. seguito dall’indirizzo della pagina che ci interessa recuperare. Ricordiamo che la cache ci fornisce generalmente una singola vecchia pagina web, che viene mantenuta per un tempo arbitrario e che, dopo un po’ di tempo, inesorabilmente scade (anche in conseguenza delle impostazioni del file htaccess del vostro sito). In alcuni casi potrete recuperare la pagina per intero, inclusa la grafica e le immagini, in altri casi recuperete soltanto il testo HTML perchè magari, nel frattempo, la cache delle immagini o del CSS o JS è scaduta prima.

Questa procedura, ricordiamo, funziona se il dominio non ha impostato nel file robots.txt la seguente direttiva:

User-agent: googlebot
Disallow: /

perchè se usa questa direttiva, il dominio non sarebbe scansionabile e la cache con buona probabilità non sarà stata salvata.

Se usate Chrome, Edge o Firefox, questa sintassi è attualmente supportata scrivendo direttamente nella barra del browser ed utilzzando le versioni più recenti ed aggiornate dei browser stessi. Ricordatevi che la cache di Google funziona solo dopo un po’ di tempo che il dominio è online, se è correttamente scansionabile da Google e se funziona senza errori grossolani lato server o blocchi di altro genere via htaccess o robots.txt o ancora, alcuni tipi di errori PHP.

Recuperare la pagina con l’URL webcache.googleusercontent.com di Google

Esiste anche un formato più generale per il recupero della cache, e si basa su chiamate dirette al webservice pubblico che mantiene il database con tutte le immagini, le pagine web ed i contenuti dei vari siti che vengono scansionati. Tale servizio si chiama webcache.googleusercontent.com , si accede mediante browser senza autenticazone, e poi si interroga mediante una semplice sintassi del tipo:

http://webcache.googleusercontent.com/search?q=cache:trovalost.it

non farà altro se non resistuire l’ultima versione della cache del sito che state leggendo in questo momento.

Ad esempio, nel momento in cui ho scritto l’articolo vediamo che in alto ci sono informazioni sulla pagina, in particolare sulla data in cui è stata salvata la copia cache (13 dicembre 2020, mentre l’articolo lo sto scrivendo il 18, quindi la copia è di 5 giorni fa). Giustamente Google mi fa presente che la copia potrebbe essere cambiata nel sito originale, ad ogni modo lui è riuscito a salvarla per intero.

Questa copia cache è una copia in HTML statico dei contenuti della pagina, in cui sostanzialmente:

  • il testo della pagina è ricopiato per intero, e può essere ricopiato a nostra volta dove vogliamo per recuperare il contenuto della pagina; in questo caso stiamo vedendo la VERSIONE COMPLETA della pagina, ma potremmo anche optare per la VERSIONE SOLO TESTO (che giustamente è senza CSS e JS, nè immagini) e per VISUALIZZA SORGENTE che invece mostra solo il markup.

All’atto pratica, recuperare una pagina web con cache o l’operatore equivalente googleusercontent.com è la stessa cosa, e permette di recuperare il contenuto della pagina (ad esempio la descrizione di una pagina prodotto, oppure una FAQ), ma purtroppo non permette di recuperare il codice PHP lato server, ad esempio, che faceva funzionare la pagina stessa. Quindi l’operatore cache consente in genere di recuperare:

  • testo della pagina in HTML
  • eventuali fogli di stile (se embeddati nel codice HTML, oppure se compressi o minificati, in certi casi), ma solo se ancora sono presenti nel sito o sono stati salvati da CDN, ad esempio;
  • codice JS (se embeddati nel codice HTML, oppure se eventualmente minificato), ma solo se ancora sono presenti nel sito o sono stati salvati da CDN, ad esempio;

ma NON permette di recuperare

  • dump del database;
  • codice PHP del sito.

che invece devono essere recuperati obbligatoriamente utilizzando altre procedure tecniche, come il dump del database ed il protocollo FTP oppure, ancora, SSH. Se qualche “pezzo” manca, in questa fase di recupero, dipende dal fatto che quasi sempre le impostazioni di durata della cache via htaccess (o file equivalente lato server) erano state impostate diversamente, ad esempio 1 mese per i file JS ed 1 anno per le immagini: in tal caso vedremo i file JS di un mese fa e le immagini di un anno fa.

Se l’URL non fosse disponibile, apparirà un messaggio di errore: 404. That’s an error.

Cosa significa? In questi casi google.com non può essere purtroppo utilizzato per recuperare i contenuti del sito che ci interessava, perchè non dispone del contenuto della pagina in questione, e mostrerà una pagina di errore fatta come segue.

Recuperare la pagina con l’URL web.archive.org di Google

Questa procedura funziona se il dominio non ha impostato nel file robots.txt la seguente direttiva:

User-agent: ia_archiver
Disallow: /

Per scelta editoriale ho deciso da tempo di escludere il mio sito da web.archive.org, per cui farò l’esempio sfruttando un altro dominio.

https://web.archive.org/web/*/http://nomesito.it

per cui la sintassi per vedere lo storico della cache di archive.org per ilbosone.com sarà:

https://web.archive.org/web/*/https://ilbosone.com

Cliccando sui pallini del calendario andremo a vedere come era quella pagina web, più eventuali altre pagine interne, in quel giorno preciso. La cache è separata da quella di Google, visto che web.archive.org è il sito di un’associazione no-profit atta a preservare almeno una parte del web, e può essere utile per recuperare contenuti da siti web che abbiano dato il consenso ad essere salvata dentro archive.org. In genere il consenso è implicito per tutti i siti, in qualche modo, ma è possibile opporsi alla scansione usando la direttiva specificata nel file robots.txt del proprio sito:

User-agent: ia_archiver

Disallow: /

Se l’URL non fosse disponibile, apparirà un messaggio di errore: Sorry – This URL has been excluded from the Wayback Machine. Cosa significa? In questi casi web.archive.org non può essere purtroppo utilizzato per recuperare i contenuti del sito che ci interessava.

Recuperare la pagina con l’URL via cachedpages.com di Google

Potete effettuare in automatico le operazioni che abbiamo descritto nei paragrafi precedenti grazie al sito:

http://www.cachedpages.com/

che automatizza e racchiude tutte le funzionalità che abbiamo descritto, senza dover fare uso di alcun operatore. Molto facile da usare: basta andare nel sito, incollare la URL della pagina che vogliamo recuperare e cliccare su uno dei tre bottoni:

  • GOOGLE CACHE: mostra la cache di Google della pagina web che abbiamo inserito, se esiste
  • ARCHIVE.ORG: mostra la cache di web.archive.org di quella pagina web, se esiste
  • LIVE VERSION: mostra la cache di Google di quella pagina, se esiste

come mostrato di seguito, in sostanza.

Cliccando su uno dei tre bottoni troveremo la copia cache associata all’URL che abbiamo inserito nel campo di testo dopo ENTER URL.

Recuperare articoli usando Bing

Altro strumento da non sottovalutare per i recupero dei contenuti è il motore di ricerca di Microsoft, Bing: si fa in questo modo, basta andare su Bing, poi digitare

url:

seguito dall’URL che vogliamo recuperare, quindi ad esempio:

url:https://trovalost.it/come-recuperare-pagine-web-ed-articoli-cancellati-da-un-sito/ (clicca per vedere l’esempio)

e poi andare a cliccare sul triangolino vicino al risultato di ricerca in verdino e poi, subito dopo, selezionare da browser Memorizzati in cache e cliccarci, naturalmente. Ecco di cosa parliamo:

Se non esce fuori nulla, provate un altro metodo.

Recuperare articoli da archive.is

Potete provare a vedere se una copia della vostra pagina è indicizzata su archive.is: per farlo andate sul sito, e se dovete recuperare il contenuto di una pagina

https://trovalost.it/articolo-19276

basta cercare:

https://trovalost.it/articolo-19276

all’interno di archive.is.

Recuperare da un backup locale (ZIP)

Di solito in questi casi tendiamo ad essere presi alla sprovvista: ma la prima cosa da controllare è quella di recuperare un backup del sito. La parte degli articoli è di solito memorizzata nel database (in WordPress sono le tabelle wp_posts e wp_metaposts), quindi ripristinando il database MySQL all’interno del sito web senza articoli si dovrebbe riuscire a recuperare tutti i contenuti.

La procedura di recupero del database riporta in pratica lo stato del sito al momento del backup, e può essere eseguita sia da PHPMyAdmin svuotando il db e reimportandolo, sia mediante BigDump (software PHP gratuito per le import/dump di grosse dimensioni) che mediante Updraft (il più facile da usare). In genere non è una procedura alla portata dell’utente medio, e sarebbe meglio che fosse eseguita da un personale tecnico specializzato.

Recuperare da un backup locale (formato XML WordPress)

Una ulteriore possibilità è quella di recuperare il backup degli articoli fatto in XML da Strumenti -> Esporta, dal backend di WordPress come utente amministratore. Ovviamente qui partiamo dal presupposto di avere a disposizione il backup salvato in locale o nel cloud, cosa che purtroppo non sempre abbiamo.

htaccess e durata della cache

La cache di Google può essere vista come una specie di memoria esterna, in qualche modo: o meglio, un insieme di memorie esterne che cooperano con il crawler che scansiona periodicamente i contenuti dei nostri siti. Un software che, in sostanza, opera dietro le quinte di Google.

Per quanto la gestione di un blog possa essere semplice e spensierata, in altri termini, il problema tecnico potrebbe sempre essere dietro l’angolo: questo emerge soprattutto su alcuni tipi di siti in WordPress, ad esempio quando non sono stati progettati e messi a punto da professionisti, oppure semplicemente per fatalità. Basta una tabella corrotta nel database, ad esempio, per far saltare l’intero sito, e questa cosa è abbastanza difficile da prevedere e preventivare. Che cosa fare quando succede su un sito in WordPress?

Tali memorie esterne, in prima istanza, si basano su un complesso meccanismo di temporizzazione, cioè scansionano i nostri siti automaticamente, ogni tot giorni, sulla base di convenzioni interne dei loro software (che noi il più delle volte conosciamo solo per sommi capi), ma anche le impostazioni della durata della cache nel file .htaccess del nostro sito può condizionare questo comportamento. Questo è il primo punto chiave da inquadrare: ogni sito può avere impostazioni diverse, per cui i metodi che descriveremo possono funzionare o meno anche in base a come erano stati impostati, e a quanto si era stati accorti nel farlo.

Ad esempio, se pubblichiamo una pagina web oggi 18 dicembre 2020, ed impostiamo la durata della cache via htaccess per un anno per qualsiasi tipo di file, avremo una cosa di questo genere nel file htaccess:

<IfModule mod_expires.c>
  ExpiresActive On

 # Images
  ExpiresByType image/jpeg "access plus 1 year"
  ExpiresByType image/gif "access plus 1 year"
  ExpiresByType image/png "access plus 1 year"
  ExpiresByType image/webp "access plus 1 year"
  ExpiresByType image/svg+xml "access plus 1 year"
  ExpiresByType image/x-icon "access plus 1 year"

  # Video
  ExpiresByType video/webm "access plus 1 year"
  ExpiresByType video/mp4 "access plus 1 year"
  ExpiresByType video/mpeg "access plus 1 year"

  # Fonts
  ExpiresByType font/ttf "access plus 1 year"
  ExpiresByType font/otf "access plus 1 year"
  ExpiresByType font/woff "access plus 1 year"
  ExpiresByType font/woff2 "access plus 1 year"
  ExpiresByType application/font-woff "access plus 1 year"

  # CSS, JavaScript
  ExpiresByType text/css "access plus 1 year"
  ExpiresByType text/javascript "access plus 1 year"
  ExpiresByType application/javascript "access plus 1 year"

  # Others
  ExpiresByType application/pdf "access plus 1 year"
  ExpiresByType image/vnd.microsoft.icon "access plus 1 year"
</IfModule>

È chiaro che, pertanto, la cache in questo caso rimarrà immutata fino al 18 dicembre 2021, se nel frattempo non cambiamo nulla file in questione, ovviamente. Questo è ottimale perchè evita che Google consumi risorse ed il cosiddetto crawl budget, ma al tempo stesso non è ottimale in caso di disaster recovery (recupero di disastri informatici, dati persi o corrotti ecc.): se ad aprile 2022, per dire, affrontassimo un crash del sito e volessimo recuperare i contenuti del sito nelle singole pagine, ci ritroveremmo in teoria solo una versione della pagina di molti mesi prima, e non recente. La soluzione ideale, quindi, è quasi sempre quella inserire intervalli di aggiornamento “access plus 1 year” (ogni anno) in intervalli più brevi, come ad esempio “access plus 1 month” (ogni mese). Ovviamente se il file htaccess viene cambiato in continuazione per altri motivi, queste modifiche si potrebbero anche perdere nel tempo, ed è per questo che il file andrebbe monitorato di continuo o almeno, idealmente, andrebbe messo in modalità read only (sola lettura) una volta impostato e trovata la quadra.

Il punto è che se la SEO tecnica tradizionale invita sempre ad usare intervalli di scadenza lunga, questo maagri per un anno ci fa risparmiare banda e migliora complessivamente le prestazioni, pero’ potrebbe impedire a Google la possibilità di scaricare versioni più recenti della pagina (le vie di Google sono infinite, del resto, ma il blocco da htaccess è sicuramente più rigido di quanto non sia uno imposto via robots.txt). Quindi, ad esempio in caso di crash del sito, ci ritroveremo con un contenuto della pagina abbastanza vecchio e, quando ce ne saremo accorti, sarà comunque troppo tardi. Il suggerimento generale è quindi quello di bilanciare un po’ le esigenze, mettendo ad esempio 1 mese anzichè un anno di durata, in modo che in caso di imprevedibili crash o necessità di recuperare il contenuto della pagina web si possa, alla peggio, recuperare il contenuto dalla cache di massimo 1 mese fa (invece di 1 anno fa).

Le impostazioni in questione vanno in generale sotto il nome di leverage browser caching, per inciso, e devono sempre essere trattate con grande cura e considerando vari fattori.

Photo by Duncan Meyer on Unsplash

1/5 (1)

Che te ne pare?

Grazie per aver letto Come cercare su Google le vecchie pagine web di Salvatore Capolupo su Trovalost.it
Come cercare su Google le vecchie pagine web (Guide, Assistenza Tecnica, Zona Marketing)

Articoli più letti su questi argomenti:

Seguici su Telegram: @trovalost

SMSHosting Usa il codice PROMO per uno sconto sul primo acquisto: PRT96919