Analyses textuelles (M2 D2SN, 2024-2025)
Apparence
Cours de « Text mining » pour la promo 2024-2025 du Master D2SN à l'UGE.
Responsable: Alexandre Hannud Abdo (@Solstag)
Le programme ci-dessous est provisionnel et s'adaptera en fonction de la progression du cours.
Sous-pages :
Séance 1 : Introduction (2025-01-28)
[modifier | modifier le wikicode]- Parcours et attentes des participants
- Consignes d'usage de Wikiversité
- Introduction au programme du cours
- La diversité de sources de texte
- La multiplicité d'analyses textuelles
- L'usage social des l'analyses textuelles
Choix et constitution d'un corpus
[modifier | modifier le wikicode]Exemples de sources données textuelles:
- Magazines, web et autres : archive.org
- Scientifiques : OpenAlex, WebOfScience
- Presse : Europresse, Factiva
- Littérature : Project Gutenberg, Wikisource
Séance 2 : Signes (2025-02-04)
[modifier | modifier le wikicode]- Qu'est-ce qu'il y a dans un mot?
- Dictionnaires, expressions régulières. Cooccurrence et réseaux.
Tokenization. Taille et volumétrie. Fréquence et présence. Absolues et relatives. Dictionnaires et stopwords. Heuristiques de spécificité. Cooccurrence textuelle et paratextuelle, cooccurrence et n-grams. Graphiques et matrices de couleur.
- Matériel: https://cloud.univ-eiffel.fr/s/LyQEjrAySNnxMqH ; mot de passe :
Q1MVX-bQ@d5aZ~
Séance 3 : Morphosyntaxe et phraseologie (2025-03-31)
[modifier | modifier le wikicode]- Nature, fonction syntaxique. Phrases et signification. Sémantique structurelle.
- Étiquetage morphosyntaxique, fouille sémantique. Hypothèse distributionnelle, sémantique différentielle, plongement lexical.
Séance 4 : Énonciation et discours (2025-04-08)
[modifier | modifier le wikicode]- Énoncé et sens. Résolution de référentiels. Sémantique contextuelle. Style, thème, tropismes grammaticaux et vocabulaires. Marqueurs de subjectivité ou figures rhétoriques. Intertextualité. Contraintes.
- Modèles thématiques et domaine-thématiques, plongement de documents.
Séance 5 : Sémiotique (2025-04-22)
[modifier | modifier le wikicode]- L'émergence des signes. Théorie de l'information. Neurobiologie du langage. Signifiants, signifiés, inférences, valeurs, signification, générativité.
- Espaces sémantiques vectoriels, continus et discrets. Le temps comme dimension.
Séance 6 : Sociologie de la traduction (2025-04-29)
[modifier | modifier le wikicode]- Acteurs, humains et non-humains, en réseau. Traductions et les choses en train de se faire. Inscriptions, descriptions, symétries, réflexivités.
- La cartographie comme méthode. Les réseaux hétérogènes socio-sémantiques. Les « Digital Methods ».