Utilizzare wget per trovare i dead link (404 Not Found) di un sito
Se avete un sito web di una certa dimensione, è quasi inevitabile che vi siano qua e la dei “dead link” ovvero link che puntano a pagine inesistenti per i quali il web server ritorna l’errore HTTP 404. Poiché è cosa nota che la presenza di questi link all’interno di un sito può essere penalizzante in ottica SEO, è buona norma effettuare ad intervalli regolari un controllo a tappeto di tutte le pagine al fine di assicurarsi che tutti i link siano corretti.
Esistono vari software commerciali che consentono di effettuare questi controlli, ma se avete un po’ di dimestichezza con la linea di comando, potete ottenere un risultato analogo sfruttando il comando wget. Più precisamente è sufficiente eseguirlo come indicato di seguito:
wget --mirror --keep-session-cookies -o wget.log http://www.sito.com
Dove:
- –mirror è l’opzione che indica a wget di scaricare l’intero sito
- –keep-session-cookies consente di navigare anche pagine dinamiche che cambiano in base alla sessione utente
Una volta eseguito questo comando tutti i contenuti del sito verranno scaricati in locale e nel file wget.log potrete trovare l’elenco preciso di tutte le operazioni del crawler con i relativi risultati. A questo punto sarà sufficiente una semplice ricerca della stringa “404” all’interno del file di log per individuare subito tutte le URL trovate da wget che puntano a pagine inesistenti!
Iscriviti alla newsletter per ricevere in tempo reale tutte le notizie e gli aggiornamenti!