mardi 3 décembre 2013

Le DUMP

L’étape suivante, c’est d’extraire du texte brut à partir des pages aspirées (ce que nous avions fait à l’étape précédente). Cette opération est possible grâce à Lynx, un navigateur web utilisé en ligne de commande, qui affiche le texte sur les pages web. Pour cela nous devons lancer Lynx, lire le contenu textuel des pages aspirées à l’aide de « wget » et stocker ce contenu dans des fichiers .txt.

Cette dernière opération est réalisée grâce à la commande « dump ». Pour cela il faut créer un répertoire ou nous allons stocker les pages DUMP :



L’option -nolist permet à Lynx d’ignorer tous les liens superflus qui pourraient apparaître sur les pages web à dumper.

On lance le script dans Cygwin :


Et nous obtenons un beau tableau :)


S. & A.

Aucun commentaire:

Enregistrer un commentaire