Aller au contenu

Utilisateur:Nivekah/Analyses textuelles (M2 D2SN, 2024-2025)

Une page de Wikiversité, la communauté pédagogique libre.


M2 D2SN

Kevin HA

Cahier d'étude : Analyse de la littérature académique sur le "Live Streaming"

[modifier | modifier le wikicode]

Ce cahier d'étude documente l'analyse d'un corpus de 9500 références académiques (articles, résumés) extraites de la base de données OpenAlex. Le corpus a été constitué autour des termes "Live", "Streaming" et “Twitch” dans le cadre d'un travail de recherche plus large sur la plateforme Twitch qui est le sujet de mon mémoire de recherche.

L'objectif de ce travail est de cartographier ce champ de recherche : quand a-t-il émergé ? Quelle est la nature des documents qui le composent ? Quels sont les concepts, thèmes et enjeux principaux qui animent la recherche sur le live streaming ?

Pour ce faire, j'ai suivi la méthodologie proposée en cours, en mobilisant les notebooks (Data, Signes, Phrases, Documents) pour analyser le corpus à différentes échelles.

Cependant, j’ai eu d'innombrables problèmes lors de l’exécution des notebooks étudiés en cours, certains que j’ai réussi a régler ou contourner et d’autres, qui, malgré mes nombreuses tentatives de débug, n’ont pas pu être réglés. Ainsi, des éléments d’analyses peuvent être manquants pour notre corpus de texte comme le réseau graph-tools, qui n’a eu de cesse de faire crasher mes sessions.

Malgré tout, ce document fait la synthèse des opérations techniques réalisées, des résultats obtenus et de l'interprétation que l'on peut en tirer pour répondre à nos questions initiales.

Partie 1 : Traitement du corpus brut (échelle : données)

[modifier | modifier le wikicode]

La première étape, menée avec le cahier Data.ipynb, a consisté à explorer et préparer le corpus. L'enjeu est de comprendre les caractéristiques fondamentales de notre collection de documents avant toute analyse de contenu.

Question traitée : Quelles sont les caractéristiques générales de mon corpus en termes de volume, de temporalité et de format ?

Opérations réalisées :

[modifier | modifier le wikicode]
  • Chargement des données : le corpus de 9500 documents a été chargé dans une structure de données (DataFrame).
  • Analyse exploratoire : utilisation des visualisations pour comprendre la distribution temporelle des publications et la distribution de leur longueur.
  • Pré-traitement et modélisation : les textes ont été nettoyés et transformés en objets Doc via la bibliothèque spaCy.
  • J’ai néanmoins choisi délibérément de garder et privilégier les documents en anglais puisque la masse de document est bien plus riche sur le sujet du streaming et de Twitch dans cette langue plutôt qu’en français.

Résultats et interprétation :

[modifier | modifier le wikicode]

L'exploration initiale a révélé plusieurs caractéristiques marquantes :

  • Une explosion de la recherche récente :
    • Visualisation :

Le graphique de distribution temporelle montre clairement que le sujet du "live streaming" est un champ de recherche extrêmement récent. Quasi inexistant avant l'an 2000, il connaît une croissance exponentielle à partir de 2010 et explose littéralement après 2020. Cela coïncide avec la démocratisation des plateformes comme Twitch et l'intérêt académique croissant pour ces phénomènes encore émergents.

  • Un corpus majoritairement composé de textes courts :
    • Visualisation :
    • La majorité des documents ont une longueur inférieure à 1000 tokens, avec un pic très net autour de 200-500 mots.
  • Croisement des tendances :
    • Visualisation :
  • Ce graphique croisant l'année et la longueur confirme les deux points précédents : le "point chaud" de la densité se situe dans la période post-2015 pour des documents de faible longueur. L'explosion récente de publications est donc principalement une explosion de textes courts comme des publications de conférence ou résumés en ligne. On observe néanmoins une densification des publications longues à partir de 2019 et on retrouve également le tournant que représente le début des années 2000 où l’on observe par rapport au siècle précédent une très nette augmentation des publications de manière générale en plus d’une augmentation de la longueur des documents.


Partie 2 : Analyse des concepts et des discours clés (échelle : signes)

[modifier | modifier le wikicode]

Avec le cahier Signes.ipynb, je me suis penché sur le vocabulaire du corpus pour identifier les concepts centraux.

Question traitée : De quoi parle-t-on précisément dans la recherche sur le "live streaming" ? Quels sont les termes et les thèmes les plus importants ?

Opérations réalisées :

[modifier | modifier le wikicode]
  1. Tokenisation : Les textes ont été segmentés en "tokens". J'ai suivi le processus du notebook, en partant d'une tokenisation simple pour arriver à une version plus propre utilisant spaCy, qui normalise le texte et retire la ponctuation, les nombres et les stop words.
  2. Analyse de cooccurrences : Plutôt qu'une simple liste de fréquence, j'ai calculé une matrice de cooccurrences. Cette opération identifie combien de fois deux mots apparaissent ensemble dans un même document, ce qui permet de révéler des associations sémantiques fortes.
  3. Clustering visuel : J'ai utilisé une clustermap pour visualiser la matrice de cooccurrences. Cet outil réorganise les lignes et les colonnes pour regrouper les mots qui co-occurrent souvent, faisant ainsi apparaître des "clusters" thématiques.

Résultats et interprétation :

[modifier | modifier le wikicode]

La clustermap des cooccurrences est particulièrement éclairante.

  • Visualisation :

Partie 3 : Etude de l'objet "Streamer" (échelle : phrases et relations)

[modifier | modifier le wikicode]

Après avoir identifié les concepts clés du corpus, cette troisième étape, menée avec le cahier Phrases.ipynb, s’intéresse aux relations entre les mots. L'objectif est donc de comprendre les fonctions grammaticales des mots pour répondre à une question centrale :

Quel rôle la recherche académique attribue-t-elle à la figure du "streamer" ? Est-il dépeint comme un acteur agissant, un objet d'étude passif, ou autre chose ?

Opérations réalisées :

[modifier | modifier le wikicode]
  1. Analyse syntaxique : Analyse de la structure grammaticale de chaque phrase avec  spaCy. Cette opération décompose la phrase en un arbre de dépendances, identifiant pour chaque mot sa fonction (sujet, objet, etc.) et ses relations avec les autres mots.
  2. L'analyse a été ciblée sur le terme "streamer" pour extraire toutes les relations syntaxiques dans lesquelles il est impliqué.
  3. Quantification des rôles grammaticaux : calcul de la fréquence à laquelle "streamer" apparaît dans trois rôles fondamentaux :
    • Sujet nominal ( Le streamer est celui qui fait l'action.)
    • Objet direct ( L'action est faite sur le streamer.)
    • Objet d'une préposition ( Le streamer est impliqué indirectement dans l'action.)

Résultats et interprétation :

[modifier | modifier le wikicode]

L'analyse syntaxique permet de visualiser la structure d'une phrase de manière très claire :

  • Exemple de parsing :

Cette visualisation de la phrase "Audience Management Practices of Live Streamers on Twitch" montre comment chaque mot est lié aux autres. On voit par exemple que "Streamers" est l'objet de la préposition "of", et est lui-même qualifié par "Live". C'est cette logique qui est appliquée à tout le corpus.

1. Le streamer comme agent actif (sujet de l'action)

[modifier | modifier le wikicode]

Lorsque le "streamer" est le sujet du verbe, on découvre ce que la recherche lui attribue comme actions.

  • Visualisation :

Dans ce rôle, le streamer est un agent économique et social. Il utilise (use), trouve (find), a besoin (need), crée (make, produce), diffuse (broadcast), interagit (engage, interact), gagne (earn), et même joue (gamble). Cette facette du discours dépeint le streamer comme un travailleur, un entrepreneur et un créateur de contenu qui agit sur son environnement pour produire de la valeur.

2. Le streamer comme objet d'étude (objet de l'action)

[modifier | modifier le wikicode]

Lorsque le "streamer" est l'objet du verbe, on ne regarde plus ce qu'il fait, on s'intéresse à ce qu'on en fait.

  • Visualisation :
  • Ici, le streamer est un phénomène que l'on observe. Les spectateurs s'identifient à eux (identify), les regardent (watch), les suivent (follow), les soutiennent (support), et l'analysent (report, survey). Le vocabulaire montre une posture scientifique d'observation et de catégorisation.
  • La présence de termes comme “share”, “motivate”, “support”, “finnance”, “identify” souligne possiblement bien l’aspect profondément communautaire du streaming notamment sur Twitch.
  • On note aussi la présence de termes plus ambivalents comme "attaquer" (attack), qui pourraient renvoyer à des études sur le harcèlement ou des critiques de leurs pratiques.


En croisant ces deux perspectives, on construit une image complète et nuancée du "streamer" dans la littérature scientifique.

  • D'un côté, il est reconnu comme un agent actif, un professionnel doté de compétences et de stratégies.
  • De l'autre, il est positionné comme un objet d'étude, à analyser et qui suscite des réactions et des émotions à ses spectateurs.

Les heatmaps ci-dessous montrent la distribution brute de ces relations, confirmant que les rôles de sujet (nsubj) et d'objet (dobj) sont les plus prédominants, ce qui valide notre analyse focalisée sur ces deux fonctions.

  • Visualisation :

Cette analyse de l'échelle des phrases, nous permet ainsi de voir comment la recherche à la fois donne la parole au streamer en décrivant ses actions, et se l'approprie comme un objet d’étude en lui-même.


Cette analyse, partie d'une masse de 9500 documents, a permis de dresser un portrait de la recherche sur le "live streaming" ou nous avons donc pu établir que :

  1. C'est un domaine de recherche en pleine explosion, particulièrement depuis 10 ans.
  2. Il est dominé par des formats courts (résumés, articles de conférence).
  3. Son cœur thématique est l'étude socio-culturelle des communautés de joueurs et des plateformes de jeux vidéo en ligne.