Como obter automaticamente o conteúdo de sites apagados ou desaparecidos
Muitas vezes, quando você publicar conteúdo na Internet, não tendo em conta todas as conseqüências que tal ação pode ter, antes de mais nada que possa ser realmente removido do site, se é as páginas do seu blogs dos dados pessoais que ultimamente dispersar todo o amor em toda parte no Facebook.
Aqui vemos como, na prática, é possível, graças a dois serviços online gratuitos utilizados por todos, recuperar o conteúdo da web (variando de páginas simples para o site inteiro), mas, de facto, ter sido removido ou alterado:
-
Wayback Machine é a maior presença histórica em que a Internet tem um banco de dados de mais de 10 bilhões de páginas da web.
Ele fornece acesso a locais históricos sobre o conteúdo armazenado: desta forma, mesmo que um site já não existe ou tem sofrido pesadas reinterpretações através Wayback você ainda pode facilmente reconstruir a evolução e as mudanças ao longo do tempo.
-
Warrick é uma ferramenta online que permite recuperar páginas individuais ou sites inteiros retirados da Internet em um totalmente automatizados.
E "basta digitar a URL de partida e seu e-mail, em seguida, Warrick vai iniciar o processo de recuperação assíncrona inteligentemente explorando as seguintes fontes:
- Internet Archive (que também é baseado Wayback Machine)
- Cache do Google
- Cache Yahoo
- Live Search cache
Ao final do processo, que pode demorar vários dias (tudo depende da quantidade de páginas), Warrick lhe enviaremos um e-mail com instruções para baixar um arquivo zip contendo o conteúdo recuperado. É muito interessante que Warrick também está disponível como script Perl para download e, portanto, gerenciável diretamente de seu computador via linha de comando.
Acho que a Internet é uma ferramenta incrivelmente poderosa, capaz de eliminar as distâncias e romper fronteiras, mas ao mesmo tempo, também esconde armadilhas insidiosas que só pode ser evitado através da combinação certa de dois ingredientes básicos:
- informações corretas
-
o uso da razão













Achei o artigo muito interessante, eu não acho que existem ferramentas como a Web, talvez porque eu nunca tive essa necessidade, a este respeito que eu queria perguntar se existe uma ferramenta que, se assim posso dizer ", respondeu o funcionamento do RSS, ou seja, me alerta se um site mudou (por exemplo, eu adicionei um artigo ...), tudo para evitar ir cada vez para ver se existem quaisquer actualizações.
Obrigado.
Olá.
Eu não entendo como usar Warrick .. eu iria escrever o e-mail como você disse, mas não pode ser confundido com alguma coisa, por favor pode me ajudar? É muito importante ...
Olá!
A minha pergunta seria muito estúpido, mas para mim é muito importante. Pedi para Warrick para recuperar um antigo site, bem como instruções. Eu queria perguntar se as imagens são obtidas no site ou somente o conteúdo do texto?
Agradecemos antecipadamente pela sua atenção.
@ David: esses motores normalmente receber todo o conteúdo de um site estático, em seguida, as imagens devem ser incluídos.