logo BnF
logo Api
Découvrez et utilisez les données de la BnF

Vous êtes ici

Utiliser les API de Gallica : l'exemple du Rapport de recherche

Le besoin initial

Gallica, la bibliothèque numérique de la BnF, propose désormais plus de 5 millions de documents en libre accès. C'est sans conteste l'une des plus grandes bibliothèques numériques nationales dans le monde. La diversité de la typologie documentaire, ainsi que le fonds proposé et mis à disposition par les chargés de collections, lui donne un attrait supplémentaire. Ainsi cette bibliothèque attire aussi bien le grand public, qu'un public de chercheurs.

Lorsque le public de chercheurs, au sens large, utilise Gallica, il faut qu'il dépouille lui-même, à partir de la liste de résultats, les éléments pour chaque document afin de sélectionner ceux étant potentiellement intéressants dans le contexte de sa recherche. Cela génère d'incessant allers-retours entre les documents et la liste de résultats. Au niveau des documents, il est nécessaire de regarder ce qui potentiellement peut retenir l'attention sur un document entre les métadonnées et le contenu.

Le service rendu par le Rapport de recherche

Le Rapport de recherche effectue cette tâche de dépouillement, pour mettre ensuite à disposition de l'utilisateur la liste des documents de sa recherche, avec pour chacun un ensemble d'extractions corrélées à la requête. On peut accéder à cette application directement,  mais surtout depuis Gallica au niveau de la liste de résultats dans l'onglet "exporter" du panneau d'affinage de gauche, pour avoir un dépouillement au niveau de la liste de résultats, mais aussi pour chaque résultat, un dépouillement par document. La fouille se fait ainsi sur tous les fascicules du périodique en question.

02_rapp_texte.jpg

Il ne suffit plus après, que d'explorer cette liste à plat, pour sélectionner plus facilement les documents ayant, a priori, un intérêt.

Ce projet utilise les services de recherche de l'API Gallica de recherche afin de parcourir la liste de résultats.

Pour chaque document, le projet utilise l'ensemble des services de l'API Document de Gallica, pour fouiller dans les métadonnées, les contenus textuels (reconnaissance optique de caractères, OCR) et les tables des matières.

On génère également des imagettes extraites des contenus du document numérisé, avec un surlignage dans le contenu textuel (OCR), afin de mettre en avant et en contexte les résultats, grâce à l'API IIIF de récupération des images de Gallica.

Le projet propose une interface graphique où l'on voit une partie des documents liés à la requête. 

Il y a également une fonctionnalité d'export plus exhaustive qui génère en tâche de fond, un rapport complet, envoyé à l'adresse électronique indiquée par l'utilisateur.

L'intégralité du code source est disponible dans l'archive.

Pour en savoir plus sur le rapport de recherche, consulter le blog Gallica.