lundi 23 décembre 2013

...là-bas... là-bas... les merveilleux nuages !

Deuxième phase du projet : la création de nuages de mots-clés ou tag clouds. Nous utilisons pour cela les contextes globaux crées précédemment. Nous considérons donc le texte dans son ensemble afin d'avoir une représentation des mots qui se répètent le plus. Plus le mot est fréquent dans notre contexte et plus il sera écrit en grand dans le nuage.

 D'emblée nous pouvons dire que le résultat aura besoin de quelques ajustement car des mots fréquents tels que les articles définis ou indéfinis ou certains mots de liaison, bien que très fréquents, ne représentent aucun intérêt pour notre travail. Il en est de même pour certaines variantes autour d'un même mot, si la variation singulier Vs pluriel peut présenter un réel intérêt, la variation avec un l'article défini élidé n'en a aucune. En arabe l'article défini et certaines prépositions qui s'écrivent collés au mot font que certains mots peuvent apparaître en double ou triple ou en quadruple, s'il est intéressant de garder la variation pluriel/singulier pour les autres nous choisirons de les supprimer.

Concernant la création du nuage à proprement parler nous disposons de différents outils qui présentent chacun quelques avantages et quelques inconvénients. Nous comparerons ici les deux sites www.wordle.net et www.worditout.com. Les deux outils permettent un choix intéressant au niveau du visuel (qui est tout de même un critère important pour la création d'un nuage de mots clés) avec une légère préférence pour Wordle. Mais Worditout est plus intéressant au niveau des possibilités de paramétrages car il nous permet de créer toute une liste des mots que nous ne souhaitons pas voir apparaître dans le nuage ce qui présente un gain de temps par rapport à wordle où il faut supprimer les mots un à un avec un clic droit. Worditout permet aussi d'inclure ou d'exclure des mots directement depuis note liste "contextes globaux" via l'onglet "word list" ce qui facilite beaucoup l'exclusion des mots inutiles et qui permet de vérifier que des mots importants ont bien été pris en compte. Dans les deux cas il m'a fallu beaucoup de temps pour ajuster les mots en arabe car à chaque suppression d'un mots d'autres mots tout aussi inutiles faisaient leur apparition. Pour le français, sur wordle, nous avons obtenu une liste assez nette même s'il a fallu la nettoyer un peu. Sur worditout nous avons d'abord entré une liste des mots à éliminer du nuage ce qui a nécessité plusieurs essais pour obtenir un résultat pertinent. Les mots en russes arriveront ultérieurement à cause d'un petit soucis au niveau de l'encodage.










S. & A.

Aucun commentaire:

Enregistrer un commentaire