Aller au contenu

Utilisateur:Nicolas.lebigot/Analyses textuelles (M2 D2SN, 2024-2025)

Une page de Wikiversité, la communauté pédagogique libre.

Texte Mining

Lebigot Nicolas

Synthèse des étapes de traitement textuel

Chargement et préparation des données

Les données proviennent d’un fichier CSV contenant des publications Instagram sur les chiens.

Les champs textuels body (description) et hashtags sont fusionnés pour former un texte unique par post.

Un nettoyage est appliqué : suppression de ponctuation, mise en minuscules, normalisation des espaces, etc.

Tokenisation et filtrage

Chaque post est transformé en une liste de mots (token_array).

Les mots trop courts, contenant des chiffres ou des caractères non pertinents sont exclus.

Ce traitement permet d’obtenir une base de texte "propre" pour l’analyse.

Analyse de fréquence et présence

Pour chaque mot, on calcule, sa fréquence totale dans tous les posts

sa présence, c’est-à-dire dans combien de posts il apparaît au moins une fois

Une mesure de spécificité est dérivée : fréquence relative à la présence, pour détecter les mots les plus caractéristiques.

Sélection de mots représentatifs

On retient les mots ayant une présence suffisante (≥ 5% des posts) et une forte spécificité.

Ces mots sont considérés comme "intéressants" pour l’analyse des thématiques.

Matrice de cooccurrence

Une matrice est construite pour compter combien de fois chaque paire de mots intéressants apparaît ensemble dans un même post.

Une version normalisée conditionnellement est également calculée.

Visualisation des cooccurrences

Une clustermap (carte de regroupement hiérarchique) permet de visualiser les liens les plus forts entre les mots.

Cela met en évidence des groupes de mots souvent utilisés ensemble dans les publications.

Modélisation des sujets avec BERTopic

BERTopic est appliqué pour identifier automatiquement des thèmes latents dans les textes.

Chaque post est associé à un topic, défini par un ensemble de mots-clés représentatifs.

Visualisations interactives

Carte de distance inter-topic (LDAvis-like) : visualise la séparation entre les thèmes.

Diagramme en barres : montre les mots-clés dominants par topic.

Heatmap de similarité : identifie les relations entre les différents thèmes extraits.

Conclusion

Ce pipeline complet permet d’extraire des informations thématiques riches depuis un corpus Instagram et twitter.

L'approche combinée (fréquence, cooccurrence, clustering sémantique) donne une vue claire et exploitable sur les contenus dominants, les vocabulaires utilisés et les regroupements naturels de sujets autour des chiens.

partie code :

je n'ai pas reçu a mettre les images donc je vous l'ai envoyer par mail.