Utilisateur:Poupidoupidoupidou/Analyses textuelles (M2 D2SN, 2024)
Projet d’analyses textuelles des résumés des films sur IMDb
Lien vers le rapport : https://drive.google.com/file/d/1dyQJdsb_to06sDXRD3gVSqXSWttDkFiN/view?usp=sharing
Création d'un code python avec un notebook Jupyter lab.
L’objectif est le suivant : identifier les mots-clés récurrents associés à chaque genre de film et examiner les similarités entre les films en termes de genres et de réalisateurs.
Le dataset : iMDb (Internet Movie Database) via Kaggle, récupéré par Harshit Shankhdhar en 2021 contenant 1000 films, avec 16 colonnes incluant des informations comme le titre, l'année de sortie, la durée, le genre, la note IMDb, le résumé, le réalisateur, et les recettes.
Nous nous intéresserons ici aux colonnes suivantes :
- Genre
- Réalisateur
- Résumé
Sous-objectifs :
1. Identifier les mots-clés récurrents dans les résumés des films par genre.
2. Analyser les similarités entre les films en termes de genres et de réalisateurs.
3. Proposer des films en fonction de mots-clés spécifiques à partir de résumés de films.
Moyens et techniques utilisés :
- Bibliothèques Python : Spacy, NLTK pour le traitement du texte.
- Étapes de prétraitement du Texte :**
- Nettoyage (conversion en minuscules, suppression des caractères spéciaux)
- Tokenisation (découpage des résumés en mots individuels)
- Identification des classes grammaticales
- Lemmatisation (réduction des mots à leur forme de base)
Identifier les mots-clés récurrents :
L’identification des mots-clés récurrents par genre se fera par l’extraction des mots les plus fréquents dans les résumés des films pour chaque genre et la création et l’utilisation de dictionnaires et de la fréquence des mots pour chaque genre.
Extraits des premiers résultats :
- **Drama :** man, young, life, find, two, woman, story, world, war, become
- **Crime :** man, two, murder, young, crime, one, find, police, life, family
- **Action :** man, must, young, two, find, force, one, lead, world, become
- **Romance :** love, young, woman, man, fall, two, meet, find, life, wife
Analyse de similarité :
- Vectorisation TF-IDF, similarité cosinus.
- Utilisation de la similarité cosinus pour mesurer la proximité entre les genres basés sur les mots-clés des résumés.
- Création d’une Heatmap
Analyse de similarité des réalisateurs :
- Par le comptage des occurrences, création de matrices binaires pour les genres, calcul de la similarité Jaccard.
- Création d’une Heatmap
Ce que ce projet apporte :
- Des visualisations et analyses permettant une meilleure compréhension des caractéristiques textuelles des résumés de films par genre et réalisateur.
- Permet de faire de recommandations de films, analyser des tendances dans les résumés de films pour améliorer les systèmes de recommandation.
- Faciliter la classification des films et la compréhension des préférences du public.