Cortext/Tutoriels/L’analyse socio-sémantique par l’approche Sashimi
Ce tutoriel introduit l'application de Sashimi, une méthodologie pour l'étude quali-computationnel de corpus. Il commence par un exercice de modélisation domaine-thématique, suivi par l'usage d'une modélisation enchaînée pour détecter des périodes. Il continue par une sélection de domaines afin de délimiter le corpus, et d'un l'enrichissement du corpus par détection d'entités. Il s'achève par des modélisation enchaînées de ces entités et d'autres dimensions d'intérêt, qui prend compte de la délimitation réalisée.
Conceptuellement, chaque étape nous permettra de :
- Modélisation domaine-thématique (« domain-topic ») : enquêter la structure des thématiques (groupes de mots) du corpus et des domaines (groupes de documents) constitués réciproquement selon la distribution de thématiques dans leurs documents.
- « De quelles manières, dans quels domaines, une thématique apparaît combinée à d'autres ? »
- « De quelles manières, dans quels domaines, deux thématiques se croisent ? »
- « Quelles sont les thématiques les plus transversales pour le corpus ou certains groupes de domaines ? »
- Modélisation enchaînée (« domain-chained ») temporelle : enquêter la structure du temps du corpus par périodes constitués selon la distribution de leurs documents dans les domaines.
- « Quels sont les années de rupture thématique du corpus ? »
- « Quels sont les périodes quand une thématique donnée disparaît ? »
- « De quels domaines la proportion change le plus entre deux périodes majeures ? »
- Délimitation : circonscrire un sous-corpus d'intérêt pour une question de recherche à traversa la sélection de domaines pertinents.
- « Que voit-on en recentrant les instruments sur les domaines qui traitent d'une thématique d'intérêt ? »
- « Que voit-on en recentrant les instruments sur les domaines ayant monté en importance entre périodes ? »
- « Que voit-on en recentrant les instruments en excluant les domaines sans rapport direct à ma question ? »
- Modélisation enchaînée sous délimitation : enquêter la structure d'une dimension originale ou enrichie du corpus, à travers de clusters de ses éléments organisés selon leur distribution dans les domaines appartenant à la sélection.
- « Comment les organisations nommés dans les textes se distribuent entre les domaines sélectionnés ? »
- « Comment les villes nommées dans les textes se distribuent entre les domaines, en excluant ceux qui traitent d'une thématique étrange au sujet d'intérêt ? »
A. L’exploration avec Sashimi
[modifier | modifier le wikicode]Objectif : Réaliser une première modélisation du corpus complet pour appréhender la richesse des thématiques présentes et l’interconnexion entre domaines et topics ; puis réaliser une modélisation enchainée sur le temps pour appréhender l’évolution de la littérature entre différentes périodes.
🔖 Consulter Sashimi dans la documentation de l'application Cortext Manager
1. Usage de Sashimi
[modifier | modifier le wikicode]La méthode Sashimi dans Cortext Manager fonctionne avec 3 opérations différentes qu’on utilise d'abord en séquence :
- Prepare Corpus : à partir d’un choix de colonnes textuelles ou catégoriques à traiter, produit une préparation du corpus ;
- Domain Model : à partir d’une préparation du corpus, produit un modèle regroupant les documents en domaines et les items des colonnes préparées en topiques ;
- Domain Maps : à partir d’un modèle choisi et d’un choix de colonnes à afficher, produit les instruments de lecture et annotation.
2. Créer une modélisation « domain-topic »
[modifier | modifier le wikicode]- Lancer le script Prepare Corpus en sélectionnant comme sources textuelles les colonnes correspondant au titre et au résumée ;
- Lancer le script Domain Model pour construire une modélisation domain-topic en s’appuyant sur le corpus préparé (selon la taille d'un corpus ce traitement peut être assez long) ;
- Créer les instruments de lecture (carte et réseaux) et annotation (workbook) associés au modèle, en lançant le script Domain Maps ;
- Pour permettre une meilleure interprétation des résultats, remplir les champs relatifs aux colonnes à utiliser dans les instruments, dont au mois « Document title » et « Document date » ;
- Pour donner accès aux documents à partir de la carte, renseigner le champ « URL field » en sélectionnant une colonne contenant des URLs pour les documents. Alternativement, sélectionnez une colonne contenant un identifiant, par exemple le
doi, et modifiez le champ « URL template » de façon à construire un URL à partir de l'identifiant qui remplacera les signes{}:[1]https://doi.org/{}
- Comprendre les instruments obtenus :
- domain-topic map : carte interactive pour lire les domaines et topics ;
- domain_workbook : tableur pour annotation de domaines et documents ;
- networks : lecture relationnelle des liens entre domaines et topics.
- Avec l'aide des instruments, explorer et étudier le corpus à travers les domaines et topiques modélisés.
- Lire l'onglet « Help » du domain map et essayer les manipulations y décrites.
- Pour les networks, chercher les échelles et caractéristiques qui produisent des résultats parlants.
- Pour un codage collaboratif d'un
domain_workbook, vous pouvez l'importer dans un tableur en ligne.
3. Créer une modélisation « enchaînée »
[modifier | modifier le wikicode]- Lancer une modélisation domain-chained pour la colonne correspondant à l'année de publication des documents (parfois appelée
ISIpubdate), sur la base du modèle obtenu avec domain-topic ; - Créer les instruments pour le modèle enchaîné avec Domain map en choisissant l’option « domain-chained » et le modèle obtenu ;
- L'instrument domain map ici s'appelle
domain-chained {colonne enchaînée} map.
- L'instrument domain map ici s'appelle
- Explorer en complémentarité avec la modélisation précédente.
- Toujours à l'aide de l'onglet « Help » du domain map.
Questions
[modifier | modifier le wikicode]㉄ A-t-on un intérêt à relancer la modélisation ? Que dit la documentation de la méthode ?
㉄ Quelles conséquences si l'on prend le corps du texte dans la phase de tokenisation ?
㉄ Peut-on modéliser avec « domain-topic » une dimension non textuelle ? Qu'obtient-on alors ?
B. Explorer et se focaliser sur une sous-thématique
[modifier | modifier le wikicode]Objectif : Identifier une question de recherche et à partir d'elle choisir les sous-domaines pour lesquels conduire une exploration approfondie.
1. Identifier une problématique et ses domaines d’intérêt
[modifier | modifier le wikicode]- Explorer le corpus à l’aide des cartes et réseaux obtenus, afin de choisir les domaines sur lesquels travailler :
- A partir de leur constitution en terme de topics : les sujets pertinents
- A partir des relations que les domaines entretiennent par leurs sujets
- A partir de leur volume et profil temporel
- Conseils :
- N'oubliez pas l'onglet « Help » des domain maps.
- Dans les blocs (domain maps), privilégier une lecture ascendante, à partir des niveaux plus fins et donc plus cohérents. Les niveaux plus élevés sont moins concrets et plus difficiles à interpréter. Utilisez la carte de topiques et la barre de recherche pour choisir des thématiques d’intérêt pour la question de recherche et ainsi rendre visible les domaines portant ces thématiques.
- Dans les réseaux (domain networks), privilégier le niveau où ils sont lisibles et suffisamment riches, se ressemblant à des constellations. Au niveau 1 les réseaux sont souvent trop denses, mais on pourra y retrouver une lisibilité avec des cartes centrées sur une sélection de domaines.
- Pour avoir toutes les informations sur les documents dans les cartes et workbook – auteurs, pays, journal etc – il est nécessaire de remplir les champs proposés lors du lancement de Domain map.
- Dans le livret de travail (domain workbook), les informations sont affichées de manière à faciliter l’annotation de domaines ou de documents en utilisant les colonnes libres à droite de ces éléments. La première feuille affiche l’ensemble des domaines, et chaque sous-domaine de niveau 1 fait l’objet d’une feuille présentant ses documents à laquelle on peut accéder – et revenir – via des hyperliens en utilisant “Ctrl+click”.
2. Créer une carte centrée sur une sélection de domaines
[modifier | modifier le wikicode]- Une fois identifié un premier groupe de domaines d’intérêt, pour aller plus loin dans l’investigation nous pouvons créer des instruments centrés sur eux :
- Relancer le script Domain map, mais en précisant dans le champ « Domain selection » les étiquettes des sous-domaines que vous aurez identifiés.
- Les instruments portant sur une sélection de domaines permettent d’orienter le travail de lecture et d’annotation, et notamment rendent moins peuplés, et alors plus lisibles, les réseaux de niveau plus bas.
- Pour inclure des colonnes supplémentaires dans le domain workbook, il suffit de les choisir dans le champ « Add columns to workbook ». Cela permet aussi de récupérer des identifiants pour produire à la source de données des requêtes ciblées au sous-corpus sélectionné.[2]
C. Enrichir le corpus
[modifier | modifier le wikicode]Objectif : Identifier dans les articles du corpus les entités de différents types grâce aux opérations Corpus term indexer et Named entity recognizer.
🔖 Consulter Corpus Terms Indexer et Named Entity Recognizer dans la documentation de l'application Cortext Manager
1. Identifier des termes pré-établis avec Corpus Terms Indexer
[modifier | modifier le wikicode]L'opération Corpus Terms Indexer permet d'indexer dans les documents les usages d'une liste d'expressions fournies par l'utilisateur.
- Téléverser dans Cortext Manager un fichier de tableur exporté au format TSV, contenant trois colonnes: les deux premières doivent contenir une forme standard qui va être retenue en tant qu'entité lors de l'indexation, la troisième contient toutes les formes a considérer comme équivalentes à l'entité, séparées par les signes
|&|. Par exemple:liste_de_termes.tsv Stem Main form Forms patate douce patate douce patate douce|&|patates douce|&|patates douces sauce tomate sauce tomate sauce tomate|&|sauce aux tomates|&|sauce à la tomate|&|tomates en sauce - Sélectionner l'opération Corpus Terms Indexer et choisir la liste téléversée.
- Choisir les colonnes pour lesquelles détecter les entités, typiquement les mêmes utilisées pour la préparation du corpus. Au cas où le corpus contient le texte intégral des documents, considérer l'intérêt de le traiter ici.
- Donner un nom approprié à l'indexation dans le champ « Optionally you can name the new indexation that will be generated ».
- Lancer l'opération. L'indexation sera enregistrée en tant que nouvelle colonne du corpus avec le nom fourni.
2. Identifier des termes avec un modèle entraîné avec Named Entity Recognizer
[modifier | modifier le wikicode]L'opération Named Entity Recognizer permet d'indexer les usages de certains types de mots et d'expressions dans les documents. Par exemple, les noms d'organisations, de produits, les lieux et les personnes.
- Sélectionner les types d'entité à indexer.
- Choisir les colonnes pour lesquelles détecter les entités, typiquement les mêmes utilisées pour la préparation du corpus. Au cas où le corpus contient le texte intégral des documents, considérer l'intérêt de le traiter ici.
- Donner un nom approprié à l'indexation dans le champ « Optionally you can name the new indexation that will be generated ».
- Lancer l'opération. Les indexations seront enregistrées en tant que nouvelles colonnes du corpus, nommées selon le type d'entité et avec le nom fourni en préfixe.
D. Travailler la question de recherche avec d'autres dimensions
[modifier | modifier le wikicode]1. Dimensions enrichies
[modifier | modifier le wikicode]Objectif : Explorer des clusters d'entités présentes dans le corpus et la façon dont ils se distribuent entre les domaines.
- Produire une modélisation enchaînée sur les entités indexées
- Sélectionner l'opération Domain model avec l'option « Domain-chained »
- Sélectionner le modèle domain-topic obtenu précédemment
- Sélectionner l'une des colonnes issues de l’indexation d'entités
- Choisir entre une modélisation des clusters globale ou locale :
- Globale, prend en compte la présence des entités sur le corpus entier ; rien à renseigner
- Locale, restreinte à une sélection de sous-domaines ; renseigner le champ « Domain selection »
- Créer les instruments d'analyse pour le modèle inféré
- Lancer Domain Maps sur le modèle obtenu
- Dans le cas d'une modèle global, choisir entre :
- Produire une visualisation globale, sur le corpus intégral
- Produire une visualisation locale, restreinte à une sélection de sous-domaines via le champ « Domain selection »
- Procéder de façon similaire pour chacune des entités indexées
- Explorer la structuration de chacune de ses dimensions par rapport aux domaines du corpus et leurs thématiques
2. Autres dimensions d'intérêt
[modifier | modifier le wikicode]Objectif : Explorer des clusters d’organisations impliquées dans le corpus, de références citées, ou de revues dans lesquelles les documents ont été publiés.
- Procéder de façon analogue au scénario au dessus pour les dimensions enrichies, en choisissant la colonne appropriée pour la dimension en question.
Notes
[modifier | modifier le wikicode]- ↑ Pour un corpus Istex, vous pouvez utiliser l'identifiant
ark_idavec l'« URL template »https://search.istex.fr/results?q=arkIstex.raw="{}" - ↑ Par exemple, avec un corpus Istex, en incluant les
ark_iddans le workbook vous pouvez les copier dans un import de liste d’identifiants pour obtenir un téléchargement du sous-corpus.