L’étape suivante, c’est d’extraire du texte brut à partir des pages aspirées (ce que nous avions fait à l’étape précédente). Cette opération est possible grâce à Lynx, un navigateur web utilisé en ligne de commande, qui affiche le texte sur les pages web.
Pour cela nous devons lancer Lynx, lire le contenu textuel des pages aspirées à l’aide de « wget » et stocker ce contenu dans des fichiers .txt.
Cette dernière opération est réalisée grâce à la commande « dump ». Pour cela il faut créer un répertoire ou nous allons stocker les pages DUMP :
L’option -nolist permet à Lynx d’ignorer tous les liens superflus qui pourraient apparaître sur les pages web à dumper.
On lance le script dans Cygwin :
Et nous obtenons un beau tableau :)
S. & A.
Aucun commentaire:
Enregistrer un commentaire