Utilisateur:Micha112/Analyses textuelles (M2 D2SN, 2024)

Une page de Wikiversité, la communauté pédagogique libre.

Il a été question de chercher une base de données des articles sur le thème de la formation des étudiants en situation de handicap. Nous cherchons à mieux comprendre le contenu thématique de cette matière grise sur le sujet. Un travail a été réalisé pour tokénizer et lémmatiser et retirer les mots vides (stopwords) et les caractères spéciaux (nettoyage), produire des nuages des mots reflétant les termes les plus utilisés, étudier leurs fréquences et les mots clés. Ce travail nous renseigne sur les thématiques soulevées par ces articles.  

À partir de la colonne abstract du dataframe,

- Concaténation de toutes les valeurs de la colonne en une seule chaîne et retirer les valeurs nan

- Tokenization des mots

- Lématization des mots

- Convertir la liste de mots lemmatisés en une chaîne de caractères

- Créer un objet WordCloud et afficher le nuage de mots

- Filtrer les mots lemmatisés pour exclure les prépositions

- Filtrer les mots pour ne garder que les noms (substantifs) et les verbes

- Recréer un nuage de mots

- Compter la fréquence des mots et trier les mots par fréquence croissante

- Trouver des mots clés