Visualisation et analyse sémantique de textes

L’analyse des contenus d’un texte ou d’un ensemble de textes n’est pas chose facile. Pourtant, les étudiant, et évidemment les chercheurs, peuvent souvent tirer profit d’analyses sémantiques comme celles données en exemples ci-dessous :

  1. Faire le point pendant une recherche d’informations thématique : est-ce que l’ensemble des documents que j’ai trouvés couvrent bien les divers aspects que j’ai définis grâce à des requêtes basées sur des mots-clé ?
  2. Comparer les contenus de différents textes : Si j’ai un ensemble de documents et que j’y ajoute un document supplémentaire, est-ce que celui-ci amène des contenus nouveaux ou permet d’approfondir les mêmes concepts ?
  3. Créer une liste de mots-clé pour un texte que j’ai produit : Quelle est la liste des mots-clé qui correspond le mieux au document que je viens de terminer ?
  4. Lire un document plus vite : Dans quelles partie d’un document l’auteur parle-t-il le plus d’un concept qui m’intéresse plus particulièrement ?

Pour aider de telles analyses, une piste est l’utilisation d’outils pouvant générer des visualisations créées à partir des contenus des textes. De plus, un autre critère de choix pour de tels outils est leur compatibilité avec un outil de gestion bibliographique comme Zotero (mais nous ne parlerons presque pas dans ce billet de cet aspect des choses). Consulter la page de documentation des plugins de Zotero (https://www.zotero.org/support/plugins), ou de toute autre application permet de trouver de nouvelles possibilités à ajouter à votre outil favori. En ce qui concerne ce que nous cherchons maintenant, il y a 2 plugins intéressants : Zotero Voyant Export et ZotNet.

Notons qu’il y avait un plugin Zotero pour l’outil de carte conceptuelle VUE, facilitant l’analyse de collections de références bibliographiques. On peut toujours installer VUE et l’utiliser. Mais le projet VUE a été arrêté en 2015 et le plugin ne fonctionne plus avec la nouvelle version 5 de Zotero. Dommage parce que si on regarde la vidéo « Mapping a Zotero collection into VUE » (Vue Project, 2009, 02:33), on voit que cette application pouvait aider le type d’analyses que nous décrivons ici.

Je me focalise dans la suite de ce billet sur l’utilisation de l’outil Voyant (https://voyant-tools.org) pour décrire quelques unes des fonctions d’analyse sémantique qu’il propose. Nous faisons cette description sur la base de 3 fichiers pdf « zipés » en un fichier unique avec lequel Voyant fait l’analyse après que j’ai chargé ce fichier .zip à l’adresse de Voyant-tools. Lorsque l’analyse est faite, Voyant ouvre une page de résultats avec cinq zones correspondant chacune à une analyse particulière et à une visualisation particulière des données issues des trois textes analysés.

La première zone en haut à gauche propose notamment deux visualisations, une sous forme d’une carte conceptuelle, appelée « Links » et l’autre d’un tableau statistique appelée « Terms ». La carte « Links » montre les mots-clé en bleu et les termes de plus haute fréquence à proximité. Cette carte permet ainsi d’explorer le sens explicité dans le corpus de documents autour des mots-clé. Je trouve cependant que cette fonction n’est pas si intuitive à utiliser. Le paramétrage « Contexte », permet d’augmenter le contexte à prendre en compte pour les mots-clé avec un curseur. Mais si je remets le curseur à son point de départ, je ne retrouve plus du tout la carte de départ.

Le tableau « Terms » est certainement l’analyse la plus classique fournie par les outils du genre de Vision : il donne le nombre d’occurences des termes les plus utilisés dans les textes analysés. Vous êtes à la recherche de mots-clé pour un texte que vous finalisez ? Vous voulez vérifier qu’un texte est très centré sur un mot-clé ou un autre ? Cette fonction est faite pour vous. Notons que Voyant donne en bas à gauche de l’écran une analyse complémentaire, texte par texte. J’ai constitué un fichier zippé avec 3 textes. Voyant a calculé les termes les plus fréquents dans ce corpus. Il calcule aussi les termes distinctifs dans les 3 textes individuels, comparativement au reste du corpus comme montré dans l’illustration ci-dessous. On peut analyser ainsi la complémentarité des textes d’un corpus donné.

Poursuivons cette description rapide et introductive aux fonctions de Voyant en notant que si je clique sur divers termes du « Tableau », la visualisation proposée par Voyant s’adapte. Par exemple, je clique sur « students » et « rubric », j’obtiens un graphique des fréquences relatives de ces deux termes dans les 3 textes de mon corpus. Cela me permet de voir que mon 2ème texte n’est pas focalisé sur le public des « students » mais fait une analyse plus globale des « rubric ».

Pour terminer ce billet, on voit que toutes ces fonctions nécessitent de se familiariser avec elles. La documentation de Voyant (https://voyant-tools.org/docs/) semble complète pour cela.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *