Outils numériques pour anthropologues/Utilité du logiciel de textométrie TXM dans le cadre d'une recherche ethnographique

Un contributeur vous informe que cette page, ou cette section de page, n’est pas finie.

Son état actuel est provisoire et doit être pris avec prudence.
Une version améliorée est en préparation et devrait être disponible prochainement.

Pour en suivre l’avancement ou y participer, veuillez consulter la page de discussion.

Introduction et contextualisation[modifier | modifier le wikicode]

Avec l'essor des TIC, les anthropologues, comme les autres travailleurs en sciences humaines, sont de plus en plus confrontés à l'utilisation et à l'observation de nombreux moyens de communication mis en œuvre au sein espaces numériques. Les réseaux sociaux, les forums, les groupes de messageries instantanées, les listes de diffusion, les sites collaboratifs, etc. sont devenus des lieux de vie partagés par de nombreuses communautés humaines. Au fils du temps, ces nouveaux espaces numériques produiront de nouveaux terrains ethnographiques qui seront à leur tour à l'origine de nouveaux domaines d'investigations en anthropologie. On parle en effet aujourd'hui d'anthropologie virtuel ou des mondes virtuels, d'ethnographie numérique ou de netnographie, de techno-anthropologie, de cyber-anthropologie, d'anthropologie du numérique ou des espaces numériques, etc. que l'on peut regrouper autour du terme « anthropologie numérique ».

Dans ce contexte, ce présent travail tentera de mettre en lumière l'intérêt d'utiliser des outils informatiques de traitement automatique du langage appliqué sur des corpus linguistiques accessibles accessible au départ de terrain ethnographique. Bien que ce type de logiciel soient généralement conçus et utilisés par les linguistes, nous n'aborderons pas ici les questions liées à l'anthropologie linguistique. Ce travail de recherche ne s'intéressera donc pas à l'analyse linguistique de corpus issus de travaux ethnographies^[1], mais bien à l'utilisation d'un logiciel d'analyse de corpus linguistique dans le but d'améliorer ou faciliter un travail de recherche ethnographique en anthropologie. Ces corpus linguistiques peuvent être nombreux (réseaux sociaux, liste de diffusions, blogs, chats autre communication instantanée, etc) et il existe de nombreux logiciels d'analyse de corpus disponibles sur le marché. Dans le cadre de cette étude, nous nous concentrerons uniquement à titre d'exemple aux archives d'une liste de diffusion et à l'utilisation du logiciel TXM.

La liste de diffusion Wikimedia comme corpus linguistique[modifier | modifier le wikicode]

Pourquoi la liste de diffusion Wikimedia ?[modifier | modifier le wikicode]

Une des raisons pour lesquelles j'ai choisi la liste de diffusion de Wikmedia comme corpus est liée au fait que le mouvement de Wikimedia constitue la thématique principale de ma thèse de doctorat. Une autre raison fut la facilité de constitution du corpus par un copié collé des archives publiée sur le Net. Il me fut donc facile de constituer, mois par mois, des fichiers séparés au format.txt pour qu'il soient directement utilisables par le logiciel TXM. Un autre argument taille, c'est que les archives de cette liste de diffusion sont publiées sous licence CC-BY 3.0 license^[2], ce qui simplifie grandement les questions d'autorisation d'usage et de diffusions des informations contenues dans les archives.

Description de la liste de diffusion[modifier | modifier le wikicode]

La liste de diffusion de la communauté Wikimedia intitulée "Wikimedia-l"^[3] est un lieu de communication au sein mouvement Wikimédia entre différent acteur tel que la Wikimedia Foundation, ses chapitres et autres organisations affiliées, ses partenaires institutionnels, les contributeurs au sein des projets, etc.

Cette liste de diffusion peut, par exemple, être utilisée pour :

La planification des nouveaux projets ou initiatives au sein du mouvement.
Les questions d'organisation de la Wikimedia Foundation, des sections locales, d'autres organisations affiliés, etc.
Discuter de la mise en place des nouveaux chapitres locaux de Wikimedia.
Élaborer et évaluer des programmes d'octroi de subventions.
Électricité de planification
Planification des élections, des scrutins et des votes
Discussion sur les projets qui n'ont pas déjà une liste de diffusion
Trouver des moyens de collecter des fonds
Autres questions liées à Wikimedia

Description du corpus[modifier | modifier le wikicode]

Le corpus est constitué d'un dossier contenant X fichiers (un fichier par mois d'avril 2004 à avril 2018) pour un taille de X Mo et X mots.

Le logiciel gratuit TXM comme outil d'analyse[modifier | modifier le wikicode]

Pourquoi TXM[modifier | modifier le wikicode]

De la même manière que certaines personnes adhère au végétarisme et ne mangent pas de viande, je prétends pour ma part adhérer au mouvement 'libriste et refuse de "manger" ou plutôt de me faire manger par du logiciel propriétaire et donc d'utilisé exclusivement et autant que possible des logiciels libres tes qu'ils furent définis par Richard Stallman. Le logiciel TXM répondait à mes attentes à cet égard. De plus il est développé par une équipe de chercheurs français qui produisent une bonne documentation en français diffusée sur le site Internet du projet ^[4] notamment sous forme d'un manuel^[5] tutorial vidéo^[6]. Enfin, le projet a une liste de diffusion ^[7] et un Wiki^[8] qui me donnent la possibilité de recevoir en français le soutien de l'équipe TXM ^[9] et des membres de la communauté.

TXM description^[10][modifier | modifier le wikicode]

TXM est un environnement d'analyse de texte/corpus et d'analyse graphique gratuit, open-source, Unicode, XML & TEI compatible et basé sur CQP et R. Il est disponible pour Microsoft Windows, Linux, Mac OS X et comme portail web J2EE. Il prévoit.

Analyse qualitative

Concordances de modèles lexicaux basées sur le moteur de recherche plein texte CQP efficace et son langage de requête CQL
Listes de fréquence des motifs CQL pour n'importe quelle propriété de mot (type, lemme, pos...) grâce à l'intégration de l'intégration TreeTagger pour la lemmatisation et le tagging de pos.
Graphiques d'occurrence de motif CQL
Les modèles lexicaux sont exprimés dans le langage de requête CQL, basé sur les propriétés au niveau du mot et de la structure.
Navigation riche en édition de texte basée sur HTML avec des liens de tous les autres outils

Analyse quantitative

Analyse factorielle des correspondances
Spécificités constratives des mots
Classification hiérarchique
Analyse de mots cooccurrents ou de modèles lexicaux

Modèle de données du corpus[modifier | modifier le wikicode]

Indexe les mots et leurs propriétés ainsi que la structure hiérarchique des textes.
Répertorie les métadonnées externes ou internes des textes ou des locuteurs.
Permet la construction de différentes sous-corpores et partitions (pour l'analyse de structures de texte ou de groupes de mots)

Retour sur l'installation, l'importation et l'utilisation des fonctions[modifier | modifier le wikicode]

Avant TXM, j'avais utilisé très peu de logiciels textométriques et toujours de manière très ponctuelle. Se familiariser avec ce logiciel ne m'a pas semblé excessivement difficile, mais l'aurait peut-être été si je n'avais pas acquis auparavant quelques connaissances en analyse de corpus en linguistique. Sans cette formation préalable, j'aurais dû assimiler en même temps que la découverte du logiciel tout un ensemble de concepts tels que occurrence, lemme, tolken, etc. Ceci dit, au départ du manuel en français et avec l'aide de la communauté, il me semble tout à fait possible de partir de zéro dans l'utilisation de ce logiciel.

Au final, les seuls problèmes que j'ai rencontrés dans cette expérience ont été l'installation et l'utilisation du logiciel d'automatisation Treetagger, qui, contrairement au logiciel de traitement statistique R, n'était pas pré-installé dans TXM. Ces problèmes étaient liés à des erreurs de configuration de ma part et un autre problème probablement lié à un fichier téléchargé et corrompu. Ce problème a cependant disparu depuis la dernière version 0.7.9 du logiciel qui intègre automatiquement le logiciel Treetagger.

Il est à noter que le processus d'importation de mon corpus menant à la création d'un fichier XML contenant les informations de catégorisation et de lemmatisation a pris plus de trois heures sur un ordinateur de bureau ( i5 3.40 GHz 64 bits). A la fin du processus, une surcharge de ma RAM de 8 Go oblige l'ordinateur à utiliser l'espace d'échange sur le disque dur. Enfin, le dossier en format binaire du corpus produit en plus d'une heure de calcul, avait une taille de 6,5 Go et ne pouvait être chargé sur mon ordinateur portable faute d'espace disque alors que plus de 15 Go étaient disponibles.

Il me semble donc important de souligner qu'avant de se lancer dans l'analyse d'un corpus avec TXM, il est nécessaire de s'assurer que le matériel informatique est suffisamment puissant en fonction de la taille du texte. Autre exemple, après avoir créé deux partitions au sein de mon corpus, le démarrage du logiciel est passé de quelques secondes à près de cinq minutes.

Le logiciel m'a semblé relativement stable lorsque vous n'effectuez qu'un calcul à la fois. Face à la taille du corpus et à la puissance de mon ordinateur de bureau, certains processus peuvent atteindre des temps d'exécution élevés, voire excessifs. Lorsque le logiciel se bloque et que son arrêt doit se faire via le système d'exploitation de l'ordinateur, une partie du travail effectué avant l'arrêt peut être perdue. Il est donc conseillé de redémarrer l'application après avoir effectué un travail important.

Fonctionnalités de TXM utiles pour l'ethnographe[modifier | modifier le wikicode]

Une à une, nous discuterons ici des fonctionnalités offertes par le logiciel TXM, et de leur capacité à fournir des informations utiles à l'ethnographe. Pour chaque fonctionnalité utile, nous donnerons un exemple appliqué à l'analyse des archives de la liste de diffusion Wikimedia-l.

Édition[modifier | modifier le wikicode]

La fonction d'édition vous permet de parcourir l'ensemble du corpus en affichage html avec l'affichage d'une bulle d'information sur chaque mot indiquant sa catégorie lexicale. La navigation se fait fichier par fichier avec le nom du fichier comme en-tête de l'onglet et un menu contextuel par clic droit permet l'envoi d'un mot vers le concordancer. Sans quitter le logiciel TXM, cette fonction permet de parcourir l'intégralité du texte pour appréhender sa structure et lancer des recherches plus approfondie sur base de mots clefs choisis. Il est par exemple possible de parcourir facilement toutes les interventions d'un acteur que vous souhaitez suivre dans ses intervention au niveau de la liste de diffusion. Nous reviendrons plus tard sur la fonctionnalité du concordancier..

Lexique[modifier | modifier le wikicode]

Une analyse lexicale (liste des mots classés par fréquence) donne déjà de bonnes informations à l'ethnographe concernant les mots qui sont le plus souvent utilisés par les acteurs de la liste de diffusion, un chercheur peut par exemple obtenir des informations sur :

Les principaux sujets de discussion au sein de la communauté et les mobiliser dans les entretiens individuel semi-directif ;
Les membres les plus actifs de la liste de diffusion dans le but de choisir des personnes à interviewer ;
Les fournisseurs d'adresse courriel les plus utilisés dans le but de connaître les canaux de communication les mieux adapter pour entrer en contact avec les acteurs du mouvement.

Exemple tiré du corpus :

Conclusion[modifier | modifier le wikicode]

Autre type de corpus possible.

Ressources théoriques

Interaction stratégique et partage des connaissances dans la liste de diffusion des développeurs KDE ^[11].
Que peuvent nous dire les listes de diffusion OSS ? A Preliminary Psychometric Text Analysis of the Apache Developer Mailing List^[12].
Analyse de complexité des textes coutumostratiques^[13]
Aperçu du traitement du langage naturel ^[14]
Manuel utilisateur français TXM ^[15]

Papiers à explorer

Explorez, jouez, analysez votre corpus avec TXM^[16]
Analyse de la littérature anthropologique pourrait être un travail très intéressant en mobilisant par exemple l'archivage numérique fait par la plateforme ODAS^[17].
Texte à investiguer^{[B 1]}^{[B 2]}^{[B 3]}^{[B 4]}

Ressources externes

https://www.ortolang.fr/market/corpora/orthocorpus/v1.1#_blank

Note et sources <références />

↑ Jannis Androutsopoulos, « Potentials and Limitations of Speech-Centred Online Ethnography », Language@Internet, vol. 5, n^o 8, 2008-09-04 (ISSN 1860-2029) [texte intégral]
↑ Source : https://lists.wikimedia.org/mailman/listinfo/wikimedia-l
↑ Source : https://lists.wikimedia.org/pipermail/wikimedia-l/
↑ Projet Textométrie
↑ Manuel de TXM 0.7 FR, 2018-02-26
↑ Atelier d'initiation à TXM de Bénédicte Pincemin du 27 septembre 2012
↑ txm-users - TXM users mailing list - subrequest
↑ index[Le wiki de la liste txm-users]
↑ L'équipe TXM - Projet Textométrie
↑ Présentation - Projet Textométrie
↑ George Kuk, « Interaction stratégique et partage des connaissances dans la liste de diffusion des développeurs KDE », Science de la gestion, vol. 52, 2006-07, p. 1031-1042 (ISSN 0025-1909) [texte intégral lien DOI]
↑ Purchase : Que peuvent nous dire les listes de diffusion OSS ? A Preliminary Psychometric Text Analysis of the Apache Developer Mailing List
↑ Recherche:Analyse de complexité des textes coutumostratiques - Wikiversité
↑ « Outline_of_natural_language_processing&oldid=863062167 », Wikipedia, 2018-10-08
↑ Manuel de TXM 0.7 FR, 2018-02-26
↑ Explore, jouez, analysez votre corpus avec TXM | DHd-Blog
↑ https://www.odsas.net.

Erreur de référence : Des balises <ref> existent pour un groupe nommé « B », mais aucune balise <references group="B"/> correspondante n’a été trouvée