Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Utiliser Les API De Gallica : L'exemple De Gallicagram
R Presse Textes Lexicométrie

Utiliser les API de Gallica : l'exemple de Gallicagram


Gallicagram est un outil de lexicométrie conçu pour les chercheurs et portant sur les contenus de Gallica.

Historique

Gallicagram a été développé par Benjamin Azoulay (ENS Paris-Saclay) et Benoît de Courson (Max Planck Institute - CSL) à l'aide des API Gallica.

Il est disponible à cette adresse : https://shiny.ens-paris-saclay.fr/app/gallicagram

Présentation de Gallicagram par ses auteurs

En 2011, Google proclamait le début d’une nouvelle ère en sciences sociales. Son logiciel « révolutionnaire », Ngram Viewer, permettait désormais de tracer en un instant la courbe de l’emploi d’un mot à travers le temps. Du Big Data devait jaillir spontanément la connaissance. Dix ans plus tard, force est de constater que le logiciel n’a pas convaincu les chercheurs, et a fortiori les chercheurs en sciences humaines et sociales français. L’inaccessibilité des documents exploités a rebuté les uns, l’absence d’informations sur la structure des corpus traités a détourné les autres. Tant et si bien que la lexicométrie a aujourd’hui mauvaise presse, vue comme une approche grossière, à défaut d’un corpus « maîtrisé », c’est-à-dire strictement délimité, finement décrit et entièrement disponible. Gallicagram propose de mettre à profit la masse de textes numérisés par la BnF en garantissant la maîtrise et la transparence du corpus, de sorte que le chercheur puisse tester ses hypothèses avec rigueur, ou en faire émerger de nouvelles. 

Concrètement, Gallicagram permet de visualiser l’évolution de l’usage des mots au cours du temps en fouillant les corpus de presse et de livres numérisés par la BnF et par bien d’autres bibliothèques nationales et locales, en cinq langues. Le logiciel permet d’observer non seulement les tendances séculaires et les évolutions de moyen terme, mais surtout – et c’est une nouveauté – de s’approcher au plus près des événements. Pour cela, nous avons particulièrement travaillé sur les corpus de presse, par nature sensibles aux soubresauts de l’actualité. Dans le cas de Gallica, nous avons « moissonné » trois millions de numéros de presse, numérisés et océrisés, pour en extraire la fréquence d’emploi des mots à l’échelle mensuelle, là où Ngram Viewer a fait le choix d’exclure les journaux de son corpus, et n’est précis qu’à l’année près. Notre outil permet, par exemple, de voir le choléra déferler sur la France en avril 1832. Une recherche dans le corpus de la British Library suggère que le choléra arrive dès novembre 1831 en Angleterre – événement qui semble d’ailleurs trouver un écho relatif dans la presse française, où la courbe frémit également ce mois-là. 

Coévolution du syntagme « choléra » en France (rouge) et en Angleterre (bleu), 1831-1833, Gallicagram
Coévolution du syntagme « choléra » en France (rouge) et en Angleterre (bleu), 1831-1833, Gallicagram

Par ailleurs, le parti pris de l'ouverture des données fait par Gallica permet de vérifier la pertinence des textes sous-jacents au graphique : il suffit à l’utilisateur de cliquer sur un point du graphique pour lire les articles correspondants dans Gallica. À l’inverse, le corpus sous-jacent de Ngram Viewer n’est pas accessible, ce qui empêche de vérifier la réalité des occurrences dénombrées – toujours susceptibles d’erreurs de datation ou d’océrisation. Cette fonctionnalité est un garde-fou contre un écueil majeur de la lexicométrie : la polysémie. Une acception du mot ignorée par le chercheur apparaît rapidement en parcourant les documents, évitant ainsi une interprétation fallacieuse. Simple d’utilisation, Gallicagram est accessible à tous les chercheurs, quelle que soit leur familiarité avec l’informatique. Il est accompagné d’outils plus fins, pour calculer la corrélation entre les courbes, décrire leur structure ou visualiser leur répartition géographique. Ces options permettent aux chercheurs de dépasser la seule fouille des données pour quantifier leurs hypothèses.  

Utilisation

Gallicagram est librement accessible et son utilisation est documentée dans les onglets Notice et Tutoriel.

Pour la création des corpus, ont été utilisées les API Gallica SRU et Gallica Texte brut.

 

 

Accès

https://shiny.ens-paris-saclay.fr/app/gallicagram

 

 

 

 

 

 

Fiche Technique
Licence

Conditions d'utilisation des contenus de Gallica

Technologies

R

Sujets

Presse Textes Lexicométrie

Contact
gallica@bnf.fr
Partage
twitter facebook Linkedin
Ressources en lien
Gallica : texte océrisé des monographies de langue française

Ce jeu de données fournit le texte océrisé des monographies en langue française de la collection numérique de Gallica.

CSV Texte OCR Documents Textes Lexicométrie
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube