Utilisateur:Doha Ababou/Analyses textuelles (M2 D2SN, 2024-2025)
NB : Lien du projet est envoyé par mail le 23/06
Analyse socio-discursive de tweets autour de ChatGPT – Multiples dimensions d’un corpus numérique
Introduction
Dans le cadre du cours, nous avons analysé un corpus de tweets mentionnant « ChatGPT » en langue française, en menant différentes opérations de transformation et de représentation du texte à travers plusieurs échelles : données brutes, signes, phrases, documents, dictionnaires, entités, etc. Ce cahier rend compte de cette progression analytique, en articulant les manipulations techniques aux types de questions sociotechniques soulevées.
Corpus de départ : Données et préparation
- Description du corpus : tweets en français contenant “chatgpt”, collectés via snscrape.
- Justification du choix de ce corpus.
- Nettoyage des données : suppression des doublons, valeurs manquantes, filtrage de texte.
- Format : CSV, encodage en UTF-8, import dans pandas.
Analyse au niveau des signes
- Objectif : observer la construction du langage au plus petit niveau.
- Extraction et visualisation des caractères les plus fréquents.
- Remarques sur les caractères typiques de Twitter (emoji, ponctuation expressive, etc.).
Analyse au niveau des phrases
- Objectif : découper les tweets en phrases et observer les structures syntaxiques.
- Segmentation, longueurs, ponctuation.
- Fréquence des structures interrogatives, exclamatives ou injonctives.
Analyse au niveau des documents
- Objectif : appréhender les tweets comme des unités complètes de discours.
- Analyse de la longueur des tweets, présence de hashtags, URLs.
- Identification de types de discours : information, opinion, interrogation, etc.
Conclusion
Ce travail a permis d’explorer les dimensions multiples d’un corpus numérique issu des réseaux sociaux. À travers différentes échelles, du caractère au discours complet, on a pu identifier des formes d’expression, des thèmes récurrents et une structure discursive typique de l’usage de ChatGPT sur Twitter. La mise en relation des opérations techniques avec les questions sociologiques ou communicationnelles donne tout son sens à l’approche par dimensions proposée dans ce cours.