FRA3826/EDN6001-ProjetEditionNumerique-Nouvelles gagnantes : Édition numérique du concours annuel du journal The Fiddlehead

Une page de Wikiversité, la communauté pédagogique libre.
Aller à la navigation Aller à la recherche


Blue-bg rounded.svg HSWVersity.svg ProjetEditionNumerique

Nouvelles gagnantes : Édition numérique du concours annuel du journal The Fiddlehead
A.V. Laforge
17/12/2021
Université de Montréal
fr
Résumé : Relever les thèmes récurrents dans l’existence d'un concours littéraire par l'édition numérique. Donner certains indices sur les critères d’édition dans un concours et des indices culturels sur la région des provinces de l'Atlantique. Un exemple avec l'outil Topic Extraction API et du journal The Fiddlehead.
Mots-clefs : concours littéraire, prix littéraire, juge de concours, littérature, édition, numérique, The Fidddlehead, Nouveau-Brunswick, N.-B., Fredericton, provinces Atlantiques, Maritimes, MeaningCloud LLC, Topic Extraction API
écritures numériques, édition numérique, analyse textuelle, thèmes
Book with Lens Flat Icon GIF Animation.gif from Wikimedia Commons by Videoplasty.com, CC-BY-SA 4.0
Corpus : The Fiddlehead : Atlantic Canada’s International Literary Journal par Divers auteurs en 1945 - 2021
Outil : Topic Extraction API 2.0 par MeaningCloud LLC (22 septembre 2020)
analyse textuelle
mise à jour en :


Cette page est une proposition (théorique seulement) d'un projet d'édition numérique nommé Nouvelles gagnantes : Édition numérique du concours annuel du journal The Fiddlehead, par A V. Laforge, dans le cadre du cours FRA3826/EDN6001 - Théories de l'édition numérique à l'Université de Montréal.



Présentation du corpus

Fougère ou têtes de violon (fiddleheads) par The Cosmonaut
LL-Q150 (fra)-X-Javier-littérature numérique

Afin d’examiner si certains thèmes reviennent dans un concours de nouvelle, je propose d’utiliser le journal littéraire international, The Fiddlehead, pour une étude de cas. Ce journal est publié à Fredericton (Nouveau-Brunswick) depuis 1945. Selon sa page Wikipedia, ce journal est le plus vieux journal littéraire canadien encore en circulation[1]. À l’hiver 2020, il recevait un support financier du Gouvernement du Canada, du Conseil des arts du Canada, de l’Université du Nouveau-Brunswick (UNB) et de la province du Nouveau-Brunswick[2].

Depuis 30 ans, le journal tient son concours annuel de nouvelle littéraire, Short Fiction Prize. Par exemple, pour le numéro d’hiver 2020, c’est Emily Bossé qui a remporté le prix avec sa nouvelle The Most Beautiful Woman in New Brunswick : Coming to a Field Near You[3].

Problématiques éditoriales

Reedsy Book Editor par Matt.c.28

Est-il possible de relever des thèmes récurrents dans l’existence d’un concours littéraire ? Voilà une question pour l’édition numérique : relever certaines tendances en littérature. Pour donner des pistes de réflexion, une première analyse pourrait être faite numériquement en repérant les mots-clés principaux.

Indexation générale de la littérature

Le site web du journal offre peu d’indexation. Cela complexifie la tâche pour retrouver les nouvelles gagnantes du concours en question.

Il est possible de faire une recherche sur le site web. Par contre, la requête doit être précise. On peut retrouver de l’information par auteur ou par le titre de nouvelle.

En revanche, si le titre de la nouvelle gagnante est inconnu, la recherche par mots-clés peut retrouver certaines nouvelles gagnantes avec les mots-clés suivants :

  • short fiction contest
  • short fiction prize
  • winner
  • etc.

Métadonnées

Métadonnées (informations à propos d’un document numérique)

Concernant les métadonnées (informations à propos d’un document numérique), il y a aussi des étiquettes au bas de chaque page du site web.

Par exemple, pour la nouvelle gagnante mentionnée plus haut, il y a 3 articles mentionnant spécifiquement cette nouvelle et cet auteur. Cela dit, les étiquettes sont de nature générale et ne mentionnent pas le concours :

  • fiction
  • interviews
  • stop-look-listen
  • whats-up

Chaque numéro du journal depuis 1945 est répertorié et a sa propre page sur le site web. La liste complète de tous les numéros (sauf le numéro courant qui a sa propre page) peut être consultée dans le menu Magazine / Back Issues.

Par exemple, en cliquant sur le No. 282 (Winter 2020), on y retrouve :

  • le numéro
  • la date de parution
  • la date de l’affichage sur le site web
  • une photo de la couverture
  • la table des matières, incluant :
    • les noms de section
    • les numéros de page
    • les sections
    • les auteurs
    • les noms des textes littéraires

Le titre de la page est selon le modèle suivant : No. ___ (Mois Année). Donc, il suffit de chercher de la façon suivante : No. _ (ex. : No. 282).

Cependant, il n’y a aucune description pour indiquer qu’une nouvelle a gagné un prix.

Extraction d'informations à partir de requête

Gray book question.png

Pour repérer les textes gagnants de ce concours annuel et son texte intégral, il est possible d’aller sur un site d’une bibliothèque universitaire qui a un abonnement numérique. Par exemple, l’Université de Montréal a un abonnement partiel avec ProQuest.

Voici comment procéder :

  1. Aller sur le catalogue Sofia des bibliothèques de l’Université de Montréal ;
  2. Chercher The Fiddlehead en sélectionnant le champ titre ;
  3. Accéder au périodique (bouton bleu) ;
  4. Entrer informations pour le Proxy pour les étudiants (usager et mot de passe) ;
  5. Une fois redirigé vers ProQuest, cliquer sur Recherche avancée ;
  6. pubid(44996) s’affiche, sélectionner le champ publication ;
  7. Écrire des mots-clés comme winner ou prize dans le deuxième champ en sélectionnant Texte intégral ;
  8. Cocher la case Texte intégral (Limiter à :) ;
  9. Une fois les textes trouvés, il y a deux possibilités, soit :
    • Inscrire ce lien URL pour le faire analyser par l’outil d’analyse textuelle Topic Extraction API (voir plus bas) dans le cas d’une analyse pour chaque nouvelle : ou
    • Créer un fichier du format .txt ou d’un autre format et copier/coller toutes les nouvelles gagnantes pour donner une vue globale du concours et :
      • Ensuite passer ce fichier dans l’outil ; ou
      • Copier/coller ce texte dans l’outil pour donner une vue globale du concours.

État de l'art

Fort au confluent des rivières Madawaska et Saint-Jean, 1842, aquarelle, 26.700 x 17.000 cm par Philip John Bainbridge

L’extraction de thème a pour but d’identifier de façon automatisée les thèmes, sujets ou idées principales qui relient plusieurs documents ensembles[4]. L’extraction de thème est comprise dans l’ensemble plus large de l’analyse de contexte, qui elle a pour but d’aider les analystes de données à comprendre le contexte, c’est-à-dire pourquoi certains thèmes ont été exprimés[5]. Cela implique :

[...] using natural language processing (NLP) to break down sentences into n-grams and noun phrases and then evaluate the themes and facets within[6].

L’analyse de contexte est importante puisqu’elle facilite la compréhension d’un grand volume de données tout en lui donnant un sens[7].

L’utilisation de bigrammes, c’est-à-dire des expressions composées de deux mots, semble privilégiée dans ces analyses. Ils sont moins spécifiques que les trigrammes (trois mots), mais moins généraux que les monogrammes (un mot)[8].

Exemples[9]:

monogramme bigramme trigramme
great great job a great job

Les analyses textuelles peuvent générer beaucoup de bruit, c’est-à-dire des mots qui n’offrent aucune information significative sur les thèmes ou le contexte[10]. Il est possible d’exclure ces mots de notre analyse pour diminuer le bruit en utilisant des mots vides. Des exemples de mots vides en français sont les articles (ex. : un, une, le, la, les, de, des, etc.)[11]. De plus, certains mots reviennent souvent dans certains textes, mais cela ne veut pas dire qu'ils sont significatifs dans une analyse[12].

Un autre outil facilement accessible et permettant de voir la popularité d’un ou de plusieurs mots dans des publications, pour une période de temps déterminée, est Google Books Ngram Viewer.

Google Books a aussi des extraits du journal The Fiddlehead de 1962 à 1998. Par exemple, en cliquant sur le lien The Fiddlehead, Issues 198-201, il y a une section Common Terms and Phrases qui donne déjà certains indices pour les termes et phrases les plus communes. On peut voir les thèmes populaires pour l’étendue des numéros 198 à 201 comme :

  • hand
  • looked
  • things

Or, il est à noter que le nombre d’occurrences d’un terme n’indique pas nécessairement son importance dans un texte ou un corpus de textes[13]. Le TF-IDF (term frequency-inverse document frequency) est une façon de calculer l’importance d’un mot lorsqu’on analyse un corpus.

Icon library.svg

Voici quelques exemples récents en analyse de textes, similaires au présent projet :

Projet d'édition numérique

Magnifying glass with infinite focus par Niabot

Objectifs

L’intérêt et l’objectif de faire une édition numérique de ce corpus serait, dans un premier temps, de donner certains indices sur les critères d’édition dans un concours littéraire. Les juges d’un concours font un type d’édition puisqu’ils décident quel texte mérite de gagner un prix et d’être publié. Cela pourrait pointer à ce qui est cher à un juge ou à un éditeur.

Dans un deuxième temps, relever les mots-clés principaux pourrait donner certains indices culturels sur le Nouveau-Brunwick et les provinces de l’Atlantique. S’ils ont beaucoup changés avec le temps et si les nouvelles gagnantes parlent de la vie dans cette région.

Les néo-brunswickois vivent pour la plupart près de la nature ou y ont facilement accès. Le rythme de vie et les problèmes auxquels la province fait face lui sont particuliers. Il serait intéressant d’analyser si ces thèmes sont présents et ont été jugés digne d’un prix.

Les thèmes retrouvés pourraient aussi indiquer autre chose puisque le journal est international.

Outil numérique

Présentation

Tool box icon-01.svg

L’outil Topic Extraction API, conçu par MeaningCloud LLC, pourrait extraire les thèmes principaux des nouvelles gagnantes. Il permet l’extraction de mots-clés dans un texte, et ce, dans plusieurs langues.

Cet outil est avantageux puisque :

  1. Il est gratuit, il suffit de créer un compte.
  2. L’outil peut être personnalisé.
  3. Il n’est pas nécessaire de savoir coder pour l’utiliser.
  4. L’outil peut être utilisé pour des fins académiques.

Fonctionnement

Cog-scripted-svg-green.svg

Pour utiliser cet outil, on doit premièrement se créer un compte gratuit sur MeaningCloud :

  1. Login (en haut à droite) ;
  2. Sign In with MeaningCloud ;
  3. Register Now ;
  4. Entrer informations demandées.

Il est aussi possible d’y accéder avec un compte LinkedIn ou GitHub.

La deuxième étape est d’aller sur la section Topics Extraction – Console. On complètera les informations suivantes :

  1. Notre clé API, que l’on aura reçu suite à la création de notre compte utilisateur ;
  2. Choisir la langue (ici l’anglais) ;
  3. On peut copier/coller le texte à analyser dans le champ Text :
    • Soit on insère, une à la suite des autres, toutes les nouvelles gagnantes pour avoir une vue globale du concours littéraire pendant 30 ans ; ou
    • On pourrait analyser une nouvelle à la fois, ou insérer les nouvelles d’une décennie, etc.
  4. L’outil peut aussi analyser une adresse URL ou un fichier ;
  5. On choisi les paramètres d’opération :
    • Les thèmes à détecter (ici des entités nommées, des concepts et autres expressions seraient pertinentes) ;
    • Autres paramètres.
  6. On choisi l’option de nous montrer les résultats formatés pour faciliter la visualisation des données.

Processus de réalisation

The Fiddlehead est disponible en version numérique et l’Université de Montréal a un abonnement.

L’extraction textuelle pourrait être automatisée pour les œuvres ayant gagné un prix. Cela serait afin d’éviter du copier/coller répétitif dans l’outil Topic Extraction API. Les mots-clés pour chercher dans le corpus sur ProQuest comprendraient les suivants : winner, prize, fiction contest, etc.

La deuxième étape serait de combiner tous les mots-clés relevés pour ensuite les passer à nouveau dans l’outil. Cela donnerait une vue globale sur les thèmes principaux des nouvelles gagnantes et certains indices sur les critères d’édition.

Il serait aussi possible d’analyser les thèmes principaux par décennie ou comparer ceux du 20siècle au 21siècle, par exemple.

Dans le scénario où il y aurait un problème avec la version numérique, il serait quand même possible de faire cette analyse en :

  1. Numérisant les 30 nouvelles gagnantes ;
  2. Par la suite, passer la reconnaissance optique de caractères (ROC) dans les PDF ;
  3. Ensuite copier/coller chaque nouvelle gagnante, une à la fois dans l’outil. Cela donnerait les thèmes principaux pour une année donnée. Ou encore les copier, une à la suite de l'autre, dans l'outil pour donner une vue globale des thèmes principaux depuis l'existence du concours.

Pour avoir une deuxième représentation des thèmes qui est plus esthétique, il serait aussi possible de passer ces textes dans l’outil Voyant.

Réalisation et Ouverture

Spiral park par TDAmberg

Résultats attendus

Les critères d’édition pour les nouvelles gagnantes seraient possiblement les suivants :

  • Des nouvelles d’auteurs nés ou vivant au Nouveau-Brunswick ou dans les provinces de l’Atlantique ;
  • Des nouvelles décrivant la vie dans cette région ;
  • Une présence d’une diversité de thèmes (puisque l'on a vu plus haut que cela pourrait être un facteur qui favorise la perception de la qualité littéraire) dans le cadre de la vie de cette région ;
  • Ces thèmes suivraient certaines tendances du moment, mais vues à travers les habitants de cette région.

Bref, même si ce journal est international, les nouvelles gagnantes seraient composées de thèmes référant, en grande partie, à la vie dans les provinces de l'Atlantique.

Voici des thèmes possiblement populaires dans le corpus, comprenant quelques bigrammes :

  • New Brunswick
  • Saint John
  • forest
  • cabin
  • beach
  • river
  • fishing

Perspectives

Un Wolastoqiyik (Malécite) fabrique un toboggan, Tobique (Nouveau-Brunswick)

En plus d’offrir des indices sur les critères d’édition et sur la culture des provinces de l’Atlantique, les thèmes extraits de ce corpus pourraient aussi offrir des repères. Des thèmes historiques en littérature canadienne, des histoires situées dans l’histoire.

Il serait aussi possible d'étendre cette analyse à tout le corpus du journal, depuis 1945. Certains thèmes seraient plus populaires selon une année ou une décennie donnée.

Nombre de mots : ~ 2200

Sources

  • The Fiddlehead : Atlantic Canada’s International Literary Journal, No. 1 - 289, 1945 - 2021. https://thefiddlehead.ca.

Notes et références

  1. Wikipedia : The Fiddlehead.
  2. The Fiddlehead : Atlantic Canada’s International Literary Journal, No. 282, Winter 2020.
  3. « No. 282 (Winter 2020) | The Fiddlehead », sur thefiddlehead.ca (consulté le 15 décembre 2021)
  4. Lexalytics, Inc. "Theme Extraction and Context Analysis", Lexalytics - White Paper, February 17, 2020, p. 4. https://www.lexalytics.com/resources/Lexalytics-WP-Context.pdf.
  5. Lexalytics, Inc. "Theme Extraction and Context Analysis", Lexalytics - White Paper, February 17, 2020, p. 4. https://www.lexalytics.com/resources/Lexalytics-WP-Context.pdf.
  6. Lexalytics, Inc. "Theme Extraction and Context Analysis", Lexalytics - White Paper, February 17, 2020, p. 4. https://www.lexalytics.com/resources/Lexalytics-WP-Context.pdf.
  7. Lexalytics, Inc. "Theme Extraction and Context Analysis", Lexalytics - White Paper, February 17, 2020, p. 4. https://www.lexalytics.com/resources/Lexalytics-WP-Context.pdf.
  8. Lexalytics, Inc. "Theme Extraction and Context Analysis", Lexalytics - White Paper, February 17, 2020, p. 7. https://www.lexalytics.com/resources/Lexalytics-WP-Context.pdf.
  9. Lexalytics, Inc. "Theme Extraction and Context Analysis", Lexalytics - White Paper, February 17, 2020, p. 7. https://www.lexalytics.com/resources/Lexalytics-WP-Context.pdf.
  10. Lexalytics, Inc. "Theme Extraction and Context Analysis", Lexalytics - White Paper, February 17, 2020, p. 7. https://www.lexalytics.com/resources/Lexalytics-WP-Context.pdf.
  11. Lexalytics, Inc. "Theme Extraction and Context Analysis", Lexalytics - White Paper, February 17, 2020, p. 8. https://www.lexalytics.com/resources/Lexalytics-WP-Context.pdf.
  12. Lexalytics, Inc. "Theme Extraction and Context Analysis", Lexalytics - White Paper, February 17, 2020, p. 8. https://www.lexalytics.com/resources/Lexalytics-WP-Context.pdf.
  13. Lexalytics, Inc. "Theme Extraction and Context Analysis", Lexalytics - White Paper, February 17, 2020, p. 4. https://www.lexalytics.com/resources/Lexalytics-WP-Context.pdf.
  14. (en) Kim Jautze , Andreas van Cranenburgh and Corina Koolen, « Topic Modeling Literary Quality », sur dh2016.adho.org (consulté le 15 décembre 2021)
  15. Andreas van Cranenburgh et R. Bod, « A Data-Oriented Model of Literary Language », EACL, 2017 [texte intégral lien DOI (pages consultées le 2021-12-15)]
  16. Borja Navarro-Colorado, « On Poetic Topic Modeling: Extracting Themes and Motifs From a Corpus of Spanish Poetry », Frontiers in Digital Humanities, vol. 5, 2018, p. 15 (ISSN 2297-2668) [texte intégral lien DOI (pages consultées le 2021-12-15)]
  17. Claus Boye Asmussen et Charles Møller, « Smart literature review: a practical topic modelling approach to exploratory literature review », Journal of Big Data, vol. 6, no  1, 2019-10-19, p. 93 (ISSN 2196-1115) [texte intégral lien DOI (pages consultées le 2021-12-15)]