Utilisateur:Yammoh/Analyses textuelles (M2 D2SN, 2024)

Une page de Wikiversité, la communauté pédagogique libre.

Présentation:

Séance 1:[modifier | modifier le wikicode]

Bonjour je m'appelle Yamine et je suis actuellement étudiant en data science et société numérique. Pour mon premier projet je compte travailler sur les communautés Reddit que j'étudie pour mon mémoire. Mon objecitf principale est d'identifié les termes qui sont les plus important au sein des description de post, puis de réaliser une comparaison entre les différents types de communautés. Pour se faire je vais utiliser une méthode d'analyse TF-IDF qui me permet d'extraire les plus importants dans une série de document.

Termes les plus récurrents de la communauté Accidents sur Reddit.

Après avoir analyser les commentaires des 100 posts les plus populaires du subreddit "Accident" je pense qu'il est judicieux que je procède à une mesure de récurrence pour les description de post Reddit. Tandis que je ferrai une analyse de TF-IDF pour les commentaires Reddit car cela me permettrait d'obtenir une idée du thème abordé dans la fil de commentaire.


L'image présent à droite regroupe l'ensemble 25 termes les plus récurrents dans les titres de post du Subreddit "Accident", ce format me semble plus convenable car les titres de post sont court et ne nécessite pas d'analyse plus importante selon moi.

Terme avec le TF-IDF les plus importants dans les commentaires du post les plus populaires.

Cette image présente comme la légende indique les termes dont le TF-IDF est le plus important et qui permet d'avoir une idée des termes abordés dans l'espace de discussions.


Séance 2

Pour cette partie je vais essayer de reproduire cette étape pour un nombre plus importants de communautés mais aussi pour un nombre de commentaire plus important. Je souhaite aussi analyser les duo de mots les plus récurrents dans l'espace de commentaires.


Séance

Pour cette séance j'ai décidé de tenter de réaliser une matrice de co-occurence pour analyser les combinaison de mots qui apparaissait le plus souvent et obtenir un résultat plus cohérent et facile à analyser que l'analyse de l'occurence des mots.