logo BnF
logo Api
Découvrez et utilisez les données de la BnF

Vous êtes ici

Utiliser les données de data.bnf.fr pour l'indexation de corpus numériques : l'exemple du projet Foucault Fiches de lecture

Le projet Foucault Fiches de Lecture (FFL) a pour but d’explorer et de mettre à disposition en ligne un large ensemble de fiches de lecture de Michel Foucault (1926-1984) conservées à la BnF depuis 2013. Ce corpus de plusieurs milliers de feuillets contient une collection considérable de citations et de références, organisées et commentées par Foucault pour la préparation de ses livres et de ses cours. Il ne s’agira pas seulement de rendre accessibles les sources du philosophe, mais de contribuer à l’élaboration d’une herméneutique philosophique, reposant sur l’analyse des pratiques documentaires et des styles de travail de Foucault. Ce projet financé par l’ANR (2017-2020) et coordonné par Michel Senellart, professeur de philosophie à l’ENS Lyon, bénéficie des partenariats de l’ENS/PSL et de la BnF.

Suite au lancement de la numérisation par la BnF des fiches de lecture (fonds NAF 28730 acquis par le département des manuscrits de la BnF en 2013), un prototype de plate-forme développé par l’équipe d’ingénieurs offre aux chercheurs plusieurs fonctionnalités et ouvre de nouvelles perspectives de recherche. Elle permet de consulter les feuillets numérisés et donne aussi la possibilité aux chercheurs de décrire et d’annoter ces fiches : chaque utilisateur peut à la fois produire des métadonnées mutualisées et enregistrer des annotations privées. L'équipe de recherche a souhaité utiliser des données structurées issues des catalogues de la BnF, et notamment de la base de données RDF data.bnf.fr, qui utilise les technologies du web sémantique.

Dans le cadre du projet CORPUS, l'équipe de recherche a pu échanger de manière concrète avec l'équipe de data.bnf.fr pour contourner les difficultés qui se présentaient à la réutilisation des données.

S'approprier les données et les outils

Pour arriver à utiliser les données de data.bnf.fr, et notamment surmonter les problèmes de performance, l'équipe de recherche a dû mettre en place plusieurs stratégies :

  • délimitation d'un échantillon réduit de données de data.bnf.fr et simplification du modèle de données pour effectuer des recherches croisées édition/auteur ;
  • installation d'un triple store (base de données de triplets RDF) local par l'utilisation de Fuseki (Apache Jena) pour surmonter les difficultés de performance des requêtes SPARQL distantes vers data.bnf.fr ;
  • utilisation de l'indexation plein texte avec Lucene pour gagner en performance dans les réponses aux requêtes.

L'équipe de recherche souhaiterait réutiliser le code pour d’autres projets et, en particulier, pour le développement de plugins Omeka.

Réutiliser le code du projet

Le résultat de ces expérimentations est disponible à cette adresse : https://sourceforge.net/projects/ffl-misc/files

Comme l'explique l'équipe du projet dans son Carnet de recherche, le dépôt contient :

  • un jeu de données réduit (échantillon tiré de data.bnf.fr) pour tester des requêtes et des configurations d’indexation du triple store Fuseki/TDB
  • un bac à sable PHP pour développer rapidement des fonctionnalités de recherche et de mashup

Un tutoriel accompagne ces éléments de code et de données, et présente en détail les éléments nécessaires à la réutilisation des données RDF de data.bnf.fr :

  • l’installation de Fuseki avec une configuration de recherche plein texte (indexation Lucene + Jena text-query), et l’utilisation de l’échantillon RDF BnF
  • les principales étapes de la construction d’un dataset permettant d’effectuer des recherches croisées édition/auteur sur l’ensemble les données de data.bnf.fr (récupération de dumps et transformation des données, requêtes, etc)
  • les modules PHP (tirés du prototype FFL) permettant d’interroger Fuseki ou un autre Sparql endpoint, de récupérer les données RDF pour les agréger et réutiliser dans d’autres contextes

Ce document est destiné à évoluer.