Utilisateur:Vincent Haméon/Analyses textuelles (M2 D2SN, 2024)

Une page de Wikiversité, la communauté pédagogique libre.


Analyse des pouvoirs des cartes du jeu de société Wingspan[modifier | modifier le wikicode]

En se basant sur le texte du pouvoir des cartes du jeu de société Wingspan, l'objectif sera de catégoriser les types de pouvoir et de comparer ces catégorisation avec les catégorisations déjà présentes dans le jeu.

Les données sont accessibles sur Kaggle.

Sur les 446 cartes du jeu Wingspan, 6 cartes n'ont aucun pouvoir. Il y a 312 pouvoirs différents.

Les noms les plus fréquents dans les pouvoirs des cartes du jeu Wingspan sont les suivants :


Objectif :

Je cherche à classifier les pouvoirs en fonction des groupes de mots ou des mots qu'ils contiennent.


To do list :

Faire des statistiques avec les mots les plus fréquents, ou les groupes de mots (n-gram) (voir ngram sur spacy ou nltk ou gensim). Trouver les n-gram les plus fréquents.

Essayer de remplacer tous les numéros par [x].

Supprimer les [ et ] ou remplacer par les catégories avec des underscores (ex : _nid_) --> ça ne donne pas de résultat.

Remplacer les occurrences de nids ou de nourriture ou de territoire par "nest", "food" et "land"

refaire le travail avec les verbes d'action liés aux noms pour discriminer des mécaniques (voir Depedency Parse de Spacy)

Trouver des points communs entre les nouns pour les comparer avec les territoires :

  • mécanique de pioche ("draw")
  • mécanique de ressource (incluant nourriture et dés, "birdfeeder")
  • mécanique de points de victoires (eggs, tuck behind, under, cache food)
  • intéraction avec un autre joueur ("Steal")
  • ... à définir

regarder les chunks à proximité des autres chunks (matrice de co-occurence) classifier les chunks (actions, objets, ...)


Faire en sorte de regrouper chaque ensemble en une variable O/N et faire du topic modeling dessus.

Essayer de faire en sorte qu'un modèle statistique définisse par lui même les régularités.