Utilisateur:Nicolas.lebigot/Analyses textuelles (M2 D2SN, 2024-2025)
Texte Mining
Lebigot Nicolas
Synthèse des étapes de traitement textuel
Chargement et préparation des données
Les données proviennent d’un fichier CSV contenant des publications Instagram sur les chiens.
Les champs textuels body (description) et hashtags sont fusionnés pour former un texte unique par post.
Un nettoyage est appliqué : suppression de ponctuation, mise en minuscules, normalisation des espaces, etc.
Tokenisation et filtrage
Chaque post est transformé en une liste de mots (token_array).
Les mots trop courts, contenant des chiffres ou des caractères non pertinents sont exclus.
Ce traitement permet d’obtenir une base de texte "propre" pour l’analyse.
Analyse de fréquence et présence
Pour chaque mot, on calcule, sa fréquence totale dans tous les posts
sa présence, c’est-à-dire dans combien de posts il apparaît au moins une fois
Une mesure de spécificité est dérivée : fréquence relative à la présence, pour détecter les mots les plus caractéristiques.
Sélection de mots représentatifs
On retient les mots ayant une présence suffisante (≥ 5% des posts) et une forte spécificité.
Ces mots sont considérés comme "intéressants" pour l’analyse des thématiques.
Matrice de cooccurrence
Une matrice est construite pour compter combien de fois chaque paire de mots intéressants apparaît ensemble dans un même post.
Une version normalisée conditionnellement est également calculée.
Visualisation des cooccurrences
Une clustermap (carte de regroupement hiérarchique) permet de visualiser les liens les plus forts entre les mots.
Cela met en évidence des groupes de mots souvent utilisés ensemble dans les publications.
Modélisation des sujets avec BERTopic
BERTopic est appliqué pour identifier automatiquement des thèmes latents dans les textes.
Chaque post est associé à un topic, défini par un ensemble de mots-clés représentatifs.
Visualisations interactives
Carte de distance inter-topic (LDAvis-like) : visualise la séparation entre les thèmes.
Diagramme en barres : montre les mots-clés dominants par topic.
Heatmap de similarité : identifie les relations entre les différents thèmes extraits.
Conclusion
Ce pipeline complet permet d’extraire des informations thématiques riches depuis un corpus Instagram et twitter.
L'approche combinée (fréquence, cooccurrence, clustering sémantique) donne une vue claire et exploitable sur les contenus dominants, les vocabulaires utilisés et les regroupements naturels de sujets autour des chiens.
partie code :
je n'ai pas reçu a mettre les images donc je vous l'ai envoyer par mail.