Analyses textuelles (M2 D2SN, 2024-2025)
Cours de « Text mining » pour la promo 2024-2025 du Master D2SN à l'UGE.
Responsable: Alexandre Hannud Abdo (@Solstag)
Le programme ci-dessous est provisionnel et s'adaptera en fonction de la progression du cours.
Sous-pages :
Matériel
[modifier | modifier le wikicode]- Adresse: https://cloud.univ-eiffel.fr/s/LyQEjrAySNnxMqH
- Mot de passe :
Q1MVX-bQ@d5aZ~
Séance 1 : Introduction (2025-01-28)
[modifier | modifier le wikicode]- Parcours et attentes des participants
- Consignes d'usage de Wikiversité
- Introduction au programme du cours
- La diversité de sources de texte
- La multiplicité d'analyses textuelles
- L'usage social des l'analyses textuelles
Choix et constitution d'un corpus
[modifier | modifier le wikicode]Exemples de sources données textuelles:
- Magazines, web et autres : archive.org
- Scientifiques : OpenAlex, WebOfScience
- Presse : Europresse, Factiva
- Littérature : Project Gutenberg, Wikisource
Séance 2 : Signes (2025-02-04)
[modifier | modifier le wikicode]- Qu'est-ce qu'il y a dans un mot?
Matériel
[modifier | modifier le wikicode]- Cahier Data.ipynb
Séance 3: Signes (2025-01-31)
[modifier | modifier le wikicode]- Tokenisation et nettoyage
- Taille et volumétrie
- Fréquence et présence
- Dictionnaires
- Heuristiques de spécificité
- Cooccurrence textuelle
- Cooccurrence paratextuelle
- Graphiques et matrices de couleur
Matériel
[modifier | modifier le wikicode]- Cahier Signes.ipynb
Séance 4 : Morphosyntaxe et phraseologie (2025-04-08)
[modifier | modifier le wikicode]- Nature, fonction syntaxique. Phrases et signification.
- Étiquetage et fouille morphosyntaxiques.
- Entités nommées.
- Résolution de référentiels.
Matériel
[modifier | modifier le wikicode]- Cahier Phrases.ipynb
Séance 5 : Morphosyntaxe et phraseologie (2025-04-22)
[modifier | modifier le wikicode]Culture générale sur modèles de langage
[modifier | modifier le wikicode]- Vecteurs de mots et documents : Latent_semantic_analysis (LSA), Word2Vec, GloVe
- Modèles probabilistes : Probabilistic LSA (pLSA) Latent_Dirichlet_allocation, Stochastic Block Model
- Transformers : Transformers, Sentence Transformers,
Séance 6 : Énonciation et discours (2025-04-29)
[modifier | modifier le wikicode]- Énoncé et sens. Style, thème, tropismes grammaticaux et vocabulaires. Marqueurs de subjectivité ou figures rhétoriques. Intertextualité. Contraintes.
- Plongement de documents. Modèles thématiques[1] et domaine-thématiques[2].
Matériel
[modifier | modifier le wikicode]- Cahier Documents.ipynb
Séance 7 : Énonciation et discours (2025-05-06)
[modifier | modifier le wikicode]- Cartes domaine-thématiques, leur lecture et manipulation.[2]
- Réseaux hétérogènes et transfert d'apprentissage vers d'autres dimensions.
- Le temps comme dimension. Détection de périodes.
Matériel
[modifier | modifier le wikicode]- Cahier Documents.ipynb
Séance 8 : Sémiotique & Sociologie de la traduction (2025-05-19)
[modifier | modifier le wikicode]- Sémiotique[3]
- Sociologie de la traduction[6]
- Acteurs, humains et non-humains, en réseau. Traductions et les choses en train de se faire. Inscriptions, descriptions, symétries, réflexivités.
- La cartographie comme méthode. Les réseaux hétérogènes socio-sémantiques. Les « Digital Methods ».
Introduction
[modifier | modifier le wikicode]Si on va se poser la question sur à quoi ça sert d'analyser le texte, il faut d'abord comprendre à quoi sert le texte. Si le langage est une compétence exclusivement humaine et indépendante de tout trait culturel ou historique[4], son usage concret le mêle à des rôles et situations diversifiées et variables. Différentes personnes qui s'adressent dans différentes contextes à différents publics par différents médias sur différents sujets pour différentes raisons, à travers sociétés et époques, chacune prête au texte son caractère. De telle manière que le simple comptage de coprésence entre mots peut nous révéler les contours d'une situation, dont le déroulement se reflet dans l'évolution de ces fréquences dans le temps. A son tour, les règles d'une langue nous permettent de distinguer les emplois d'un même signe et de détailler leurs rapports aux autres, apportant de la finesse aux observations. Tandis que la statistique des contextes textuels de chaque signe permet d'établir des abstractions de proximité, complémentarité et comparaison de leurs sens et thématiques. Ce qui permet également de classer lesdits contextes, qu'ils soient au niveau des phrases, paragraphes, chapitres ou documents. Ces derniers, par ailleurs, contiennent toujours des éléments extra-textuels — temporels, sociaux, géographiques ou autres, qu'ils soient renseignés ou extraits du texte — producteurs de statistiques qui peuvent se combiner à celles textuelles. Munis de tout cela face à une question qui se déploie à travers les maintes dimensions d'une situation associée à un corpus, nous pouvons construire itérativement un choix approprié de ces opérations, avec leurs statistiques et représentations descriptives ou produites par des modèles, pour enfin étudier la question sous la lumière des résultats de nos analyses.
L'explicitation d'une question
[modifier | modifier le wikicode]Peu de questions sont intéressantes. L'idée que la donnée nous servira spontanément une bonne question sans effort qualitatif préalable est dans le meilleur des cas hasardeuse, dans le pire des cas nous conduira à investir dans une question à moindre intérêt. L'illusion qui peuvent donner certaines personnes qui semblent trouver leurs questions au long de l'exploration d'une base de données cache le bagage qualitatif de ces personnes qui ont déjà un grand nombre de questions latentes. Même si parfois elles-mêmes ne le reconnaissent pas. Avant de plonger dans un corpus il est donc important d'être en mesure de formuler un première question sur la base de connaissances qualitatives, empiriques ou théoriques, et de continuer à les approfondir pendant le travail.
La spécificité du corpus
[modifier | modifier le wikicode]Un corpus est, le plus souvent, une source limitée d'informations pour une question. Autrement dit, peu de questions intéressantes trouvent une réponse directement dans un corpus donnée. Partir d'une question claire permet aussi d'évaluer de quelles données et opérations on aurait besoin pour la répondre. Et donc, le plus souvent, de la modifier pour correspondre aux limites des données dont nous disposons ou que nous pouvons produire, ainsi que d'évaluer quelles enquêtes qualitatives pourraient les compléter. Encore ici, nos connaissances qualitatives sont nos meilleures guides pour identifier ces limites et pour modifier la question en gardant un niveau d'intérêt.
La construction des objets à étudier
[modifier | modifier le wikicode]Même une simple description se base sur un modèle de comment représenter et comment interpréter ce qui est représenté. Les objets à étudier sont alors à construire sur la base de la donnée et de nos connaissances. Est-ce que la question appelle à un regard par classement sémantique, thématique, ou à l'extraction de certains types d'entités ? Quels contextes servent uniquement à la construction d'autres objets, par exemple quand nous utilisons les phrases pour préciser le sens d'un mot ou des rapports entre mots, et quels sont eux-mêmes des objets d'analyse, comme c'est souvent le cas pour les documents ? Comment rendre compte de la complexité d'objets extra-textuels tels quels auteurs, public, lieu, références, rôles ou organisations ? Et de l'hétérogénéité inter-textuelle dans des corpus mixtes ? C'est souvent dans ce travail que les limitations du corpus deviennent apparentes, et que nous devons revoir nos choix, chercher de nouvelles méthodes, élargir ou délimiter le corpus, ou l'enrichir d'autres informations.
La temporalité ou séquentialité
[modifier | modifier le wikicode]La chronologie d'un corpus est autant essentielle qu'elle est difficile de saisir correctement. Produire des comparaisons valides exige une attention à plusieurs facteurs comme : la normalisation ou pas de fréquences ; le choix de périodes compatibles en terme leur durée ou distribution de caractéristiques ; la validité statistique des stratifications. Les méthodes d'inférence de périodes sont un outil souvent incontournable, mais doivent être utilisés de façon réfléchie sur les bonnes variables et délimitation.
Les statistiques et représentations
[modifier | modifier le wikicode]S'il faut célébrer l'existence d'outils d'analyse pratiques à manipuler, reconnaissons aussi la valeur d'une compréhension plus fine des méthodes que nous employons, et d'une préférence pour des méthodes plus transparentes dotées de représentations simples mais puissantes. Pour assister et orienter les chercheurs dans cette démarche, des infrastructures de recherche existent dont Cortext en est une.
Bien choisir sa perspective
[modifier | modifier le wikicode]Quand utiliser — ou mélanger — analyse du discours, analyse sémiotique, sociologie de la traduction ?
Références
[modifier | modifier le wikicode]- ↑ (en) Justin Grimmer et Brandon M. Stewart, « Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts », Political Analysis, vol. 21, no 3, 2013-07, p. 267–297 (ISSN 1047-1987 et ISSN 1476-4989) [texte intégral lien DOI (pages consultées le 2025-05-19)]
- ↑ 2,0 et 2,1 (en) Alexandre Hannud Abdo, Jean-Philippe Cointet, Pascale Bourret et Alberto Cambrosio, « Domain-topic models with chained dimensions: Charting an emergent domain of a major oncology conference », Journal of the Association for Information Science and Technology, vol. 73, no 7, 2022, p. 992–1011 (ISSN 2330-1643) [texte intégral lien PMID lien DOI (pages consultées le 2025-05-19)]
- ↑ (en) Gianfranco Marrone, « Introduction to the Semiotics of the Text », dans Introduction to the Semiotics of the Text, De Gruyter Mouton, (ISBN 978-3-11-068898-6, DOI 10.1515/9783110688986/html, lire en ligne)
- ↑ 4,0 et 4,1 (en) Johan J. Bolhuis, Ian Tattersall, Noam Chomsky et Robert C. Berwick, « How Could Language Have Evolved? », PLOS Biology, vol. 12, no 8, 26 août 2014, p. e1001934 (ISSN 1545-7885) [texte intégral lien PMID lien DOI (pages consultées le 2025-05-18)]
- ↑ François Rastier, « De la sémantique structurale à la sémiotique des cultures », Actes Sémiotiques, no 120, 2017-01-31 (ISSN 2270-4957) [texte intégral lien DOI (pages consultées le 2025-05-19)]
- ↑ Sociologie de la traduction : Textes fondateurs, Presses des Mines, coll. « Sciences sociales », 2006 (ISBN 978-2-35671-023-9) [lire en ligne]