Come recuperare automaticamente i contenuti di siti web cancellati o scomparsi
Molto spesso quando si pubblica un contenuto in Internet, lo si fa non tenendo conto di tutte le conseguenze che tale azione può avere, prima tra tutte il fatto che nulla può essere più realmente rimosso definitivamente dal Web, sia che si tratti delle pagine del proprio blog che dei dati personali che ultimamente tutti amiamo sparpagliare ovunque su Facebook.
Di seguito vedremo come a livello pratico sia possibile, grazie a due servizi online gratuiti e utilizzabili da tutti, recuperare dei contenuti web (si va dalle singole pagine al sito intero) anche se di fatto sono stati rimossi o modificati:
- WayBack Machine è il più grande archivio storico presente in Internet che vanta un database di oltre 10 miliardi di pagine web. Esso consente di accedere per data ai contenuti storici dei siti archiviati: in questa maniera, anche se un sito non esiste più o ha subito delle pesanti rivisitazioni, grazie a WayBack è possibile comunque ricostruirne facilmente le evoluzioni ed i cambiamenti nel tempo.

- Warrick è un tool online che consente di recuperare singole pagine o interi siti rimossi da Internet in maniera totalmente automatizzata. E’ sufficiente inserire l’url di partenza e la propria email, dopodiché Warrick avvierà in asincrono il processo di recupero sfruttando in maniera intelligente le seguenti fonti:
- Internet Archive (su cui si basa anche WayBack Machine)
- la cache di Google
- la cache di Yahoo
- la cache di Live Search
Al termine del processo, che potrà durare alcuni giorni (dipende tutto dalla quantità di pagine), Warrick vi invierà un’email contenente le istruzioni per scaricare lo zip contenente i contenuti recuperati. E’ molto interessante il fatto che Warrick è disponibile anche come script Perl scaricabile e gestibile quindi direttamente dal proprio computer via linea di comando.

A mio avviso Internet è uno strumento incredibilmente potente, in grado di annullare le distanze ed abbattere le frontiere, ma nello stesso tempo nasconde anche trappole insidiose che possono essere evitate solo attraverso il giusto mix di due ingredienti fondamentali:
- una corretta informazione
- l’uso della ragione












Ho trovato molto interessante l’articolo, non pensavo esistessero degli strumenti del genere sul web, forse perché non ho mai avuto questa esigenza; a tal proposito volevo chiederti se esiste uno strumento che, se così si può dire, replichi il funzionamento degli RSS, ossia mi avvisi se un sito web è cambiato (per esempio è stato aggiunto un articolo…), il tutto per evitare di andare a vedere di volta in volta se ci sono degli aggiornamenti.
Grazie.
Ciao.
Non capisco come usare warrick..vorrei scrivere la mail come hai detto tu su ma non è possibile sbaglio qualcosa,per favore puoi aiutarmi? E’molto molto importante…
Ciao!
La mia domanda potrebbe essere alquanto stupida ma per me è molto importante. Ho richiesto a Warrick di recuperare un vecchio sito così come da istruzioni. Volevo però sapere se vengono recuperate anche le immagini presenti nel sito o solamente i contenuti di testo?
Ti ringrazio anticipatamente per l’attenzione.
@Davide: questi motori normalmente recuperano tutti i contenuti statici di un sito, quindi anche le immagini dovrebbero essere incluse.