Utilisateur:Stevendelmotte/Analyses textuelles (M2 D2SN, 2024)

1830 articles de presse récupérés sur Europresse en lien avec les polémiques / controverses entourant l'organisation des JOP de Paris 2024.

Exemple de requête : LEAD=("Paris 2024"|"JO 2024") & TEXT=(scandale*|polémique*||controverse*|débat*|critique*|discussion*) | TONE=Negative.

Lors des premières séances :

Travail accessible au lien suivant : https://colab.research.google.com/drive/193-pBgSHNPUUZhPGrNilNBcAsm7OJPht?usp=sharing

Transformation des fichiers .html en fichiers .txt avec Python et Tiresias.

Transformation des fichiers .txt en un fichier .csv puis dataframe pandas contenant le nom du fichier et le contenu du fichier.

À partir du nom du fichier : extraction de la date et de l'année dans deux colonnes séparées, du code presse, et des entités nommées (par exemple 20MIN20240106A.txt nous donne 06/01/2024, 2024, 20MIN et une colonne pour les entités nommées avec par exemple Paris en LOC etc.).

Puis isolation du titre en l'extrayant du contenu, et suppression des expressions régulières en fin de contenu : "Cet article est paru dans..."

J'ai ensuite procéder au nettoyage de ce contenu en supprimant certains caractères non alphabétiques et en supprimant les espaces multiples.

Cette étape a été l'occasion d'afficher les mots les plus fréquents sous la forme de nuages de mots, y compris pour les bigrammes, trigrammes ou n-grammes.

Durant les séances suivantes :

Utilisation de la librairie nltk pour télécharger puis supprimer les stopwords français.

Utilisation de sklearn pour vectoriser les contenus et appliquer une méthode d'analyse LDA (Latent Dirichlet Allocation) :

Cela fait apparaître 5 topics principaux : le premier concerne des problèmes liés à l'organisation des Jeux tels que la corruption, le COJO etc. Le second topic est davantage lié au à des personnalités politiques comme Hidalgo ou le président. Le troisième topic laisse apparaître des sujets liés à l'argent, au prix des places etc. Le quatrième fait écho à la résurgence du conflit russo-ukrainien sur les Jeux avec l'exclusion des athlètes russes etc. Le dernier topic est moins facile à cerner et laisse apparaître des mots comme monde, sportif, français, fédération etc.

Utilisation de nltk pour une analyse de sentiment et de matplotlib et seaborn pour en mesurer les résultats : montre que la plupart des articles ont une tonalité plutôt neutres. Très peu sont positifs et certains sont critiques voire très négatifs.

Utilisation de spacy pour appliquer la lemmatization des contenus et essayer d'obtenir une analyse plus approfondie des contenus.

Application d'une méthode de Named Entity Recognition pour identifier les personnes ou lieux les plus présents dans le corpus. Cela ouvre la voie à une analyse plus approfondie, en s'intéressant par exemple à une personne politique très présente dans les articles etc.

Utilisation d'itertools et de networkx pour une tentative de création de réseaux de co-occurrences.