R Presse Textes Lexicométrie

Utiliser les API de Gallica : l'exemple de Gallicagram

Gallicagram est un outil de lexicométrie conçu pour les chercheurs et portant sur les contenus de Gallica.

Historique

Gallicagram a été développé par Benjamin Azoulay (ENS Paris-Saclay) et Benoît de Courson (Max Planck Institute - CSL) à l'aide des API Gallica.

Il est disponible à cette adresse : https://shiny.ens-paris-saclay.fr/app/gallicagram

Présentation de Gallicagram par ses auteurs

En 2011, Google proclamait le début d’une nouvelle ère en sciences sociales. Son logiciel « révolutionnaire », Ngram Viewer, permettait désormais de tracer en un instant la courbe de l’emploi d’un mot à travers le temps. Du Big Data devait jaillir spontanément la connaissance. Dix ans plus tard, force est de constater que le logiciel n’a pas convaincu les chercheurs, et a fortiori les chercheurs en sciences humaines et sociales français. L’inaccessibilité des documents exploités a rebuté les uns, l’absence d’informations sur la structure des corpus traités a détourné les autres. Tant et si bien que la lexicométrie a aujourd’hui mauvaise presse, vue comme une approche grossière, à défaut d’un corpus « maîtrisé », c’est-à-dire strictement délimité, finement décrit et entièrement disponible. Gallicagram propose de mettre à profit la masse de textes numérisés par la BnF en garantissant la maîtrise et la transparence du corpus, de sorte que le chercheur puisse tester ses hypothèses avec rigueur, ou en faire émerger de nouvelles.

Concrètement, Gallicagram permet de visualiser l’évolution de l’usage des mots au cours du temps en fouillant les corpus de presse et de livres numérisés par la BnF et par bien d’autres bibliothèques nationales et locales, en cinq langues. Le logiciel permet d’observer non seulement les tendances séculaires et les évolutions de moyen terme, mais surtout – et c’est une nouveauté – de s’approcher au plus près des événements. Pour cela, nous avons particulièrement travaillé sur les corpus de presse, par nature sensibles aux soubresauts de l’actualité. Dans le cas de Gallica, nous avons « moissonné » trois millions de numéros de presse, numérisés et océrisés, pour en extraire la fréquence d’emploi des mots à l’échelle mensuelle, là où Ngram Viewer a fait le choix d’exclure les journaux de son corpus, et n’est précis qu’à l’année près. Notre outil permet, par exemple, de voir le choléra déferler sur la France en avril 1832. Une recherche dans le corpus de la British Library suggère que le choléra arrive dès novembre 1831 en Angleterre – événement qui semble d’ailleurs trouver un écho relatif dans la presse française, où la courbe frémit également ce mois-là.

Coévolution du syntagme « choléra » en France (rouge) et en Angleterre (bleu), 1831-1833, Gallicagram

Par ailleurs, le parti pris de l'ouverture des données fait par Gallica permet de vérifier la pertinence des textes sous-jacents au graphique : il suffit à l’utilisateur de cliquer sur un point du graphique pour lire les articles correspondants dans Gallica. À l’inverse, le corpus sous-jacent de Ngram Viewer n’est pas accessible, ce qui empêche de vérifier la réalité des occurrences dénombrées – toujours susceptibles d’erreurs de datation ou d’océrisation. Cette fonctionnalité est un garde-fou contre un écueil majeur de la lexicométrie : la polysémie. Une acception du mot ignorée par le chercheur apparaît rapidement en parcourant les documents, évitant ainsi une interprétation fallacieuse. Simple d’utilisation, Gallicagram est accessible à tous les chercheurs, quelle que soit leur familiarité avec l’informatique. Il est accompagné d’outils plus fins, pour calculer la corrélation entre les courbes, décrire leur structure ou visualiser leur répartition géographique. Ces options permettent aux chercheurs de dépasser la seule fouille des données pour quantifier leurs hypothèses.