Aller au contenu

Utilisateur:Loris.rss/Analyses textuelles (M2 D2SN, 2024-2025)

Une page de Wikiversité, la communauté pédagogique libre.

Cahier d'étude : Analyse de la littérature académique sur le sujet de l'esport

[modifier | modifier le wikicode]

Ce cahier rend compte, étape par étape, des opérations de transformation et de représentation appliquées à un corpus d'articles scientifiques. L'objectif est de déployer une analyse à travers différentes échelles et dimensions, allant des données brutes jusqu'aux entités nommées, en passant par les signes, la syntaxe, et les dynamiques temporelles.

Le jeu de données utilisé provient du fichier CSV works-2025-06-27T08-43-24.csv extrait du site Open Alex.

Partie 1 – Découverte du corpus : nettoyage, structuration, morphologie

[modifier | modifier le wikicode]

L'analyse commence par une exploration globale du corpus. Après le chargement des données dans un DataFrame, plusieurs opérations de prétraitement ont été appliquées : fusion du titre et du résumé dans une colonne unique text, suppression des lignes incomplètes, transformation des dates en années, puis calcul de la longueur des documents.

Des visualisations ont été produites pour explorer la distribution des années de publication et celle de la longueur des textes. On observe une nette croissance des publications à partir de 2010, accentuée dans les années récentes. Les textes du corpus sont majoritairement courts, ce qui confirme qu'on a principalement affaire à des résumés académiques. Ces premiers constats orientent les choix d'analyse à venir, en limitant notamment les traitements à la langue et à la syntaxe de courts passages.

Partie 2 – Signes et lexique : ce que disent les mots

[modifier | modifier le wikicode]

Le traitement lexical a permis de dresser un panorama des mots les plus fréquents dans le corpus. Grâce à une tokenisation simple et au comptage des tokens de cinq lettres ou plus, on identifie un vocabulaire fortement marqué par le champ de l'esport. Le top 30 comprend notamment les termes esports, players, sports, gaming, games, performance, video, athlètes, training, etc.

Cela révèle à la fois les objets d'étude (joueurs, jeux, performance) et les contextes d'analyse (études, santé, pratiques sociales). Le mot-clé esports, qui domine très largement en fréquence, a été choisi comme pivot pour les analyses syntaxiques suivantes. Son usage omniprésent mais dans des contextes variables justifie un examen approfondi des relations qu’il entretient avec d’autres unités grammaticales.

Partie 3 – Phrases et actions : qui fait quoi au mot-clé ?

[modifier | modifier le wikicode]

L’analyse syntaxique a été réalisée sur un échantillon de 1 000 documents contenant le mot-clé esports. Chaque occurrence a été annotée avec son type de dépendance (comme sujet, objet, modifieur) et le lemme du verbe auquel elle est reliée. L'objectif était de cartographier les actions faites sur, par, ou autour de l’esport.

Les résultats montrent que esports est utilisé de manière très variée : tantôt comme objet de l’étude (explore esports, survey esports), tantôt comme thème de discours (commentary on esports, impact of esports), ou encore comme agent flou dans des contextes peu verbalisés (esports have...). Les dépendances les plus fréquentes sont nmod, obj, amod et nsubj, ce qui souligne l’usage à la fois descriptif et analytique du mot.

Les verbes associés sont également très hétérogènes. Certains évoquent une posture méthodologique (survey, arguer, engaging, impact), d'autres des objets de mesure (performance, health, participation), et d'autres encore relèvent de l’environnement institutionnel ou technologique (cybersecurity, methodology, environment). Ce flou témoigne de la plasticité du terme dans la littérature académique.

La clustermap générée confirme l'absence de structure rigide : les contextes d'usage sont multiples et fragmentés, avec peu de cooccurrences stables. Cela reflète un champ disciplinaire encore en structuration, traversé par de nombreux regards (santé, psychologie, science des données, sociologie...).

Partie 4 – Dynamiques, entités et contextes : documents, temps et monde social

[modifier | modifier le wikicode]

L’examen du corpus dans ses dimensions temporelles et sociales prolonge l’analyse. Sur le plan diachronique, une heatmap croisant l’année de publication et la taille des textes révèle une forte concentration de résumés courts à partir de 2019, ce qui coïncide avec une hausse des travaux académiques sur le sujet.

Du côté des entités nommées, l’analyse NER permet d’extraire les lieux (comme South Korea, United States), les organisations (ex. WHO, universities), ou encore quelques noms d’auteurs et groupes de recherche. Ces entités contribuent à situer les discours produits : une géographie des études se dessine, marquée par les pays à forte tradition esportive et les institutions de recherche sport-santé.

Enfin, le calcul de la spécificité lexicale (fréquence divisée par présence documentaire) permet d’identifier des termes associés à des sous-thématiques. Par exemple, des mots comme cybersecurity ou disorder apparaissent rarement mais avec intensité dans des documents ciblés, ce qui pointe des sous-champs émergents ou spécialisés.

L’ensemble de ces résultats permet de dégager une cartographie des usages discursifs de esports à travers le temps, les disciplines, et les contextes institutionnels.

Ce parcours analytique met en évidence la richesse d'une approche multi-échelle dans l'étude d’un corpus sur l’esport. Chaque niveau d’analyse éclaire une facette différente : les données brutes offrent un aperçu temporel et structurel ; le lexique révèle les objets centraux ; la syntaxe expose les relations d’action ; et l’étude des entités nommées inscrit le discours dans un environnement socio-institutionnel.

Les visualisations produites dans le notebook illustrent clairement ces dimensions. Ce travail ouvre la voie à des investigations futures : analyse de réseau entre entités, extraction automatique de sous-thèmes, ou modélisation probabiliste de topics, autant d’approches qui prolongeraient utilement cette exploration textuelle.