Projet Identité Nationale: 12/03/13

mardi 3 décembre 2013

Le DUMP

L’étape suivante, c’est d’extraire du texte brut à partir des pages aspirées (ce que nous avions fait à l’étape précédente). Cette opération est possible grâce à Lynx, un navigateur web utilisé en ligne de commande, qui affiche le texte sur les pages web. Pour cela nous devons lancer Lynx, lire le contenu textuel des pages aspirées à l’aide de « wget » et stocker ce contenu dans des fichiers .txt.

Cette dernière opération est réalisée grâce à la commande « dump ». Pour cela il faut créer un répertoire ou nous allons stocker les pages DUMP :

L’option -nolist permet à Lynx d’ignorer tous les liens superflus qui pourraient apparaître sur les pages web à dumper.

On lance le script dans Cygwin :

Et nous obtenons un beau tableau :)

S. & A.

Tableaux des pages aspirées

Voilà le deuxième tableau avec les pages aspirées, suivi du script que nous avons vu pendant le cours. Nous avons donc créé notre script qui nous permet de ranger les urls dans le tableau. Cette étape est assez simple et permet d’ajouter juste une deuxième colonne au tableau précédent. Pour compter les urls nous avons donné une variable comme « j=1 ». Pour cela, la chose la plus difficile était de faire marcher la commande -wget. En fait, pour écrire un script on pouvait utiliser soit la commande –curl, soit la commande –wget (quand Svetlana a installé Cygwin sur son ordinateur elle n’avait pas choisi tous les éléments nécessaires du coup il a fallu réinstaller Cygwin en installant –wget cette fois-ci).

Il y a des éléments nouveaux dans le script qui permettent de bien le faire tourner :

la déclaration de l’encodage de la page html en UTF-8 ;
une variable « j » pour compter les pages aspirées ;
une deuxième boucle ‘for’ pour la récupération des pages internet.

S. & A.