Cos’è la WayBack Machine
La Wayback Machine di Archive.org è un archivio di pagina web che costituisce, ad oggi, uno dei principali strumenti per riscoprire come è stato il web, come si presentavano vecchi siti web, permettendoci di ritrovare informazioni che diversamente non sarebbero reperibili.
Problemi annessi alla WayBack Machine
Tutto questo dovrebbe presupporre che i siti web siano d’accordo ad ricevere questo trattamento (un sito potrebbe non voler dare il consenso ad essere archiviato, ad esempio, o revocarlo in un secondo momento), e pone anche la questione della durabilità ed inviolabilità delle copie: come sottolineato da più esperti, in effetti, diversamente da quello che si potrebbe pensare le copie dei siti web che vengono archiviate su Archive.org non sono permanenti.
Questo significa che i proprietari dei rispettivi siti possono decidere in autonomia di rimuovere le proprie pagine, cosa che io ho provato a sperimentare su un vecchio sito di mia proprietà , che è stato archiviato per molti anni e che, ad oggi, non mi interessava più mantenere in copia.
Usa il codice
189ed7ca010140fc2065b06e3802bcd5
per ricevere 5 € dopo l'iscrizione
Rimuovere un sito dalla WayBack Machine (web.archive.org)
Per fare questo, la procedura ufficiale non è troppo chiara, e se cercate “remove website archive.org” venite indirizzati alla procedura per togliere di mezzo contenuti da voi postati come ad esempio video o immagini, non pagine web.
La confusione nasce anche dal nome del sito: se infatti parliamo di
web.archive.org
è la WayBack machine che conserva una copia (a volte parziale, a volte integra) di un campione di siti web mondiali, mentre invece:
archive.org
è un archivio di file multimediali di vario genere che sono, in genere, con licenza pubblico dominio (ci troverete film, video con copyright scaduto e via dicendo).
Per rimuovere un contenuto da web archive, invece, bisogna attenersi ai passi riportati di seguito.
1: editare il file robots.txt
Come prima cosa, lasciare il sito che ci interessa rimuovere online e funzionante come al solito, evitando redirect globali (i redirect parziali da singola pagina a singola pagina possono, in genere, rimanere) e verificando che sia accessibile il file robots.txt del sito:
sito-che-vuoi-rimuovere.it/robots.txt
all’interno del file robots.txt, da plugin apposito oppure da file manager del sito, bisogna andare a rimuovere tutti i vecchi contenuti ed inserire la seguente direttiva:
User-agent: ia_archiver Disallow: /
Come spiegato nella guida al robots.txt, infatti, questa direttiva indica al crawler di Archive.org che il proprio user-agent (ia_archiver) NON è autorizzato a scaricare pagine web (seconda riga con /), e – per qualche motivo non troppo ovvio per un non tecnico, effettivamente – questo permetterà allo stesso di rimuovere le pagine web da web.archive.org (su Google, ad esempio, la politica di rimozione delle pagine web è abbastanza diversa).
2: assicurarsi che il robots.txt sia corretto
Il file robots.txt cosଠrealizzato deve essere posto nella root del dominio che desiderate rimuovere, non in una sottocartella di alcun genere.
Passo successivo, a questo punto, è verificare che il file robots.txt sia accessibile, contenga quella direttiva (che potete anche aggiungere ai contenuti già esistenti nel file, eventualmente) e restituisca un codice 200 OK (potete verificarlo ad esempio con il tool httpstatus).
Di seguito un esempio di restituzione del codice corretto:
mentre il contenuto del file sarà il seguente:
3: richiedere la rimozione del dominio a web.archive.org
Siamo pronti per la fase di richiesta rimozione effettiva del sito, la stessa che generalmente è poco chiara nei siti web che ne parlano.
Bisogna infatti scrivere una email in inglese all’indirizzo info CHIOCCIOLA archive.org con questo template di base (Nota MOLTO bene: sostituite Ciccio Pasticcio col vostro nome e cognome, e che-vuoi-rimuovere.it con il nome del sito che vorreste rimuovere).
Formal Request To Remove Website From Internet Archive Wayback Machine [sito-che-vuoi-rimuovere.it]
Hi,my name is Ciccio Pasticcio, owner of che-vuoi-rimuovere.it. I’m officially requesting immediate removal of the domain from web.archive.org and the Internet Archive Wayback Machine.
We placed the:
User-agent: ia_archiver Disallow: /code in our file robots.txt. Thanks very much for your work, and please let me know about this.
Fatto questo, inviate la richiesta via email e potete rilassarvi un po’. :-)
Ho fatto questa richiesta su un paio di siti, e mediamente i tempi di risposta sono di 2-3 giorni lavorativi, mentre la rimozione del sito effettiva avviene dopo circa una settimana dalla richiesta (il tempo di aggiornare il db, da quello che dicono). Photo by The Creative Exchange on Unsplash
👇 Contenuti da non perdere 👇
- Domini Internet 🌍
- Gratis 🎉
- Informatica 🖥
- Programmare 🖥
- Reti 💻
- Spiegoni artificiali 🎓
- Svago 🎈
- 💬 Il nostro canale Telegram: iscriviti
- 🟠 AMP, le pagine leggere e veloci per il mobile (per WordPress e non solo)
- 🔵 Che cos’è “well known” in HTTPS
- 🟡 ARPANET: perchè internet (NON) è nato con scopi militari