Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
  • Services
  1. Vous êtes ici : Accueil
  2. Entrepôt OAI-PMH de BnF Catalogue général (OAI-CAT)
XML OAI-PMH Dublin Core

Entrepôt OAI-PMH de BnF Catalogue général (OAI-CAT)


Présentation

OAI-PMH (Open Archives Initiative - Protocol for Metadata Harvesting), est un « protocole de collecte de métadonnées de l'Initiative pour les Archives ouvertes ».

Le protocole OAI-PMH est un moyen d'échanger sur internet des métadonnées entre institutions, afin de multiplier les accès aux données des catalogues et bibliothèques numériques.

Son utilisation est libre, tout comme ses spécifications, qui sont documentées sur le site d'Open Archives Initiatives.
Le fonctionnement de base du protocole OAI-PMH repose sur une communication de client à serveur. Le client envoie des requêtes HTTP au serveur, le serveur répond par un flux de données au format XML.

Les entrepôts de la BnF

La BnF gère deux types d'entrepôts où sont stockés l'ensemble des métadonnées relatives à ses documents.

Le premier entrepôt, appelé OAI-NUM, correspond aux notices des documents numériques consultables sur Gallica et dont la BnF détient un exemplaire numérisé (voir la page de documentation de l'entrepôt OAI-NUM).

Le deuxième entrepôt, appelé OAI-CAT, a été créé pour améliorer le signalement des documents conservés dans les collections de la BnF et faciliter la diffusion et l'échange de métadonnées descriptives. Les métadonnées proviennent des catalogues de la BnF, dont BnF catalogue général. Plus de 15 millions de notices sont exposées dans cet entrepôt (OAI-CAT).

La granularité de cet entrepôt est la notice bibliographique. L’interrogation de cet entrepôt permet d’obtenir les métadonnées « simplifiées » issues de la notice bibliographique. Il est possible entre autres d’obtenir une liste d’identifiants de documents appartenant à un ensemble prédéfini dans l’entrepôt (appelé « set » dans la terminologie OAI), à partir de laquelle on peut obtenir les notices associées.

Les notices Dublin Core (voir plus bas) de l’OAI-CAT et celles de l’OAI-NUM, bien que toutes conformes au Dublin Core, contiennent des informations différentes (plus riches pour ce qui concerne OAI-CAT). Par ailleurs l’ensemble des sets proposés sont différents.

Documentation

  • Présentation générale du protocole OAI-PMH sur bnf.fr 
  • Guide destiné aux institutions souhaitant référencer leurs documents numérisés dans Gallica en utilisant le protocole OAI-PMH [PDF]
  • Site comportant la présentation complète du protocole OAI

Les formats de métadonnées utilisés

Les notices des entrepôts OAI-PMH de la BnF sont proposées dans trois formats de métadonnées :

  • Dublin Core simple (oai_dc) : voir en bas de page pour plus de détails sur ce format et sur la fçon dont il est utilisé à la BnF.
  • MPEG21-DIDL (didl) : utile en particulier pour la représentation de la granularité des objets numériques (fascicules de périodiques, légendes des photographies dans un album). À l’intérieur de la structure DIDL, le format choisi est le Dublin Core simple.
  • TEL-Application profile (tel_ap) : il s’agit d’un profil d’application du Dublin Core spécifiquement développé dans le cadre du projet européen The European Library. En plus des éléments du Dublin Core simple, le TEL – Application profile utilise quelques éléments du Dublin Code qualifié (ex. <dcterms:issued>), de MODS (ex. <mods:location>), et quelques éléments spécifiques à TEL-AP pour préciser le lien aux ressources numérisées lorsque c’est pertinent (<tel:seeonline> vers la ressource numérisée, et <tel:fulltext> vers le texte OCRisé).

Les sets dans OAI-CAT

L'entrepôt OAI-CAT est regroupé en sets de notices, qui sont de trois types différents :

  • Sets par type de documents (archives, cartes, images, imprimés...),
  • Sets par fonds (musique contemporaine, relations France-Québec...),
  • Sets par collections/département d’appartenance d’un exemplaire (département Littérature et Art, bibliothèque de l'Arsenal....).

Exemple :

catalogue:collections correspond aux collections par appartenance d'un exemplaire. Le set :

<setSpec>catalogue:collections:musique</setSpec>

renvoie donc aux collections relevant du département de la Musique.

Toutes les notices d’OAI-CAT appartiennent au moins à un set « type de document ».


Interroger l'entrepôt : utiliser le formulaire d'aide

Il est possible d'accéder à un formulaire d'aide à la création de requête en accédant à cette page. 

Ce formulaire permet de construire des requêtes directement en complétant des champs.

Capture d'écran du formulaire d'aide à la création de requêtes sur OAI-CAT

Interroger l'entrepôt : rédiger des requêtes

Les requêtes sont à construire à partir de l'adresse suivante, à compléter par un verbe : 

http://oai.bnf.fr/oai2//OAIHandler?verb=

Il existe six requêtes et plusieurs paramètres :

  • Identify : pour obtenir des informations sur l’entrepôt interrogé.
  • ListIdentifiers : pour obtenir la liste des identifiants de notice de l’entrepôt. Il faut préciser des paramètres complémentaires, comme le format Dublin Core.
  • ListMetadataFormats : pour obtenir la liste des formats présents dans l’entrepôt.
  • ListSets : pour obtenir la liste des sets (ensembles prédéfinis) de l’entrepôt.
  • ListRecords : pour obtenir la liste des enregistrements/notices de l’entrepôt. Il faut préciser le format attendu.
  • GetRecord : pour obtenir un enregistrement/notice de l’entrepôt. Il faut préciser le format attendu et l’identifiant du document.

Les requêtes sont précédées de ?verb= et commencent par une majuscule.

Les paramètres sont introduits par « & » et commencent par une minuscule. Il y a des paramètres obligatoires et optionnels pour chaque requête.

Plus de précisions sur le langage d’interrogation

Exemples de requêtes

Les six requêtes de base

Identify

Ce verbe est utilisé pour récupérer des informations sur un entrepôt.

http://catoai.bnf.fr/oai2//OAIHandler?verb=Identify

ListIdentifiers

Ce verbe est une forme abrégée de ListRecords (voir plus bas), et permet de récupérer les en-têtes (header) plutôt que les enregistrements (records) entiers.

http://catoai.bnf.fr/oai2//OAIHandler?verb=ListIdentifiers&metadataPrefix=oai_dc

ListSets

Ce verbe est utilisé pour obtenir la liste des sets d'un entrepôt (utile pour ne récupérer que certains ensembles de notices).

http://catoai.bnf.fr/oai2//OAIHandler?verb=ListSets

ListRecords

Ce verbe est utilisé pour obtenir les enregistrements d'un entrepôt. 
Attention, sans paramètre associé, il interroge l'ensemble de l'entrepôt.

http://catoai.bnf.fr/oai2//OAIHandler?verb=ListRecords&metadataPrefix=oai_dc

ListMetadataFormats

Ce verbe est utilisé pour connaître les formats de métadonnées utilisés sur l'entrepôt.

http://catoai.bnf.fr/oai2//OAIHandler?verb=ListMetadataFormats

GetRecord

Ce verbe est utilisé pour récupérer un enregistrement en particulier sur l'entrepôt.

http://catoai.bnf.fr/oai2//OAIHandler?verb=GetRecord&identifier=oai:bnf.fr:catalogue/ark:/12148/cb40500064k&metadataPrefix=oai_dc

Autres exemples de requêtes

Requête avec clé de reprise (resumption token)

On peut gérer la récupération de longues listes d'enregistrements  par paquets, avec Resumption token :

http://catoai.bnf.fr/oai2/OAIHandler?resumptionToken=1%2168816%2124557098%212767325%21100%212826328%21oai_dc&verb=ListIdentifiers

Requête avec paramètres de date

Liste des enregistrements créés ou modifiés depuis le 15/10/2024 au format oai_dc :
http://catoai.bnf.fr/oai2//OAIHandler?verb=ListRecords&from=2024-10-15&metadataPrefix=oai_dc

Remarques complémentaires

  • Les suppressions de notices dans un set ou dans l'entrepôt sont signalées par les identifiants, mais il n'y a pas de record associé.
  • Le standard OAI-PMH ne permet pas d'exprimer de requête sur un critère bibliographique (titre, auteur, etc.).

Aide


Dublin Core Format bibliographique

Le Dublin Core simple propose 15 attributs, facultatifs et répétables :

Contenu

  • Titre dc:title    
  • Sujet dc:subject    
  • Description dc:description    
  • Source, origine de l'information dc:source    
  • Langue dc:language    
  • Relation avec d'autres ressources dc:relation    
  • Couverture chronologique et géographique dc:coverage

Propriété intellectuelle

  • Auteur dc:creator    
  • Contributeur dc:contributor    
  • Editeur dc:publisher    
  • Droits, conditions d'utilisation dc:rights

Instanciation

  • Date dc:date    
  • Type de document (texte, image, son, etc) dc:type    
  • Format dc:format    
  • Identifiant dc:identifier

Présentation des 15 éléments sur le site officiel du Dublin Core

Guide d'utilisation du Dublin Core à la BnF décrivant notamment les choix d'implémentation spécifiques à l'établissement

Accès

Formulaire d'aide à la création de requêtes : http://catoai.bnf.fr/oai2/test.html

Page de présentation de l'entrepôt (réponse XML à la requête Identify) : http://catoai.bnf.fr/oai2//OAIHandler?verb=Identify

Fiche Technique
Version

2

Formats techniques

XML

Formats de description

Dublin Core

Technologies

OAI-PMH

Licence

Licence ouverte de l’État

Contact
coordination-bibliographique@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Entrepôt OAI-PMH de Gallica et des expositions virtuelles (OAI-NUM)

OAI-PMH (Open Archives Initiative - Protocol for Metadata Harvesting), est un « protocole de collecte de métadonnées de l'Initiative pour les Archives ouvertes ».

XML OAI-PMH Dublin Core
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube