Métadonnées des collections médiévales numérisées du projet Europeana ARMA
Présentation
Dans le cadre du projet ARMA : The Art of Reading in the Middle Ages, les collections numériques de la BnF accessibles sur la plate-forme européenne Europeana ont été mises à jour pour inclure les nouvelles numérisations réalisées entre 2018 et 2022.
Afin d’améliorer la valorisation et l’interrogation croisée des collections médiévales, les numérisations de manuscrits, cartes, imprimés anciens et certains ensembles de monnaies ont fait l’objet d’une indexation spécifique pour Europeana (non reversée dans les catalogues de la BnF et dans Gallica).
Contexte du projet ARMA
De 2020 à 2022, la BnF a participé au projet ARMA : The Art of Reading in the Middle Ages en collaboration avec la Bibliothèque nationale et universitaire de Slovénie, la Bibliothèque nationale de République tchèque, la Bibliothèque d’État de Berlin, le Hunt Museum (Irlande), la Bibliothèque universitaire de Leiden (Pays-Bas), la Bibliothèque publique de Bruges (Belgique) et la Fondation Europeana.
Ce projet visait à explorer le rôle joué par les pratiques de lecture au Moyen Âge dans la construction de l’identité européenne à travers la constitution d’une collection européenne numérique d’objets et de livres médiévaux.
Il comprenait un volet documentaire (identification et signalement des collections médiévales numérisées ou susceptible d’être numérisées), un volet technique (déploiement de la technologie IIIF et moissonnage des bibliothèques numériques des différents partenaires par Europeana) et un volet éducatif (médiation et valorisation de la collection médiévale d’Europeana, création de billets de blogs, d’expositions virtuelles, de vidéos pédagogiques…).
Pour plus d’informations, voir le site du projet ARMA (en anglais) ou sa présentation sur le site de la BnF ou d’Europeana (en anglais).
Sélection des collections « médiévales »
Concevoir une collection numérique de livres médiévaux pose des difficultés bien connues, à la fois dans la délimitation du corpus (bornes chronologiques, géographiques ou linguistiques, variables suivant les traditions historiographiques nationales) et pour disposer des métadonnées nécessaires pour évaluer chacun des livres candidats : à l’heure actuelle, par exemple, près de 30% des manuscrits numérisés dans Gallica n’ont pas de date associée, et davantage encore n’ont pas d’indication de provenance.
Dans ce cadre du projet ARMA, il a été convenu de définir les collections médiévales comme l’ensemble des objets et livres produits en Europe entre 500 et 1550.
La sélection de la BnF résulte d’un compromis entre un objectif de traitement en masse (47 203 documents sélectionnés) et des difficultés liées aux métadonnées disponibles.
La sélection dans les collections de Gallica a été réalisée comme suit :
- Pour les cartes (set « maps ») et les imprimés (set « monographies »), l’ensemble des documents dont la date d’édition est comprise entre 500 et 1549. Une relecture rapide a permis d’écarter les résultats aberrants.
https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&exactSearch=false&collapsing=true&version=1.2&query=dc.source%20adj%20%22Biblioth%C3%A8que%20nationale%20de%20France%22%20%20and%20(dc.type%20all%20%22carte%22)%20and%20(gallicapublication_date%3E=%220500%22%20and%20gallicapublication_date%3C=%221549%22)%20and%20((bibliotheque%20adj%20%22Biblioth%C3%A8que%20nationale%20de%20France%22))%20or%20(provenance%20adj%20%22bnf.fr%22)&suggest=10&keywords=
https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&exactSearch=false&collapsing=false&version=1.2&query=(dc.type%20all%20%22monographie%22)%20and%20(gallicapublication_date%3E=%220500%22%20and%20gallicapublication_date%3C=%221549%22)%20and%20(provenance%20adj%20%22bnf.fr%22)%20sortby%20indexationdate/sort.descending
- Pour les manuscrits (set « manuscripts ») :
- les collections de la Bibliothèque de l’Arsenal et des partenaires de Gallica ont été sélectionnées selon les mêmes critères de date (500-1550)
- la structure des cotes a été utilisée pour isoler (autant que possible) les ouvrages produits en Europe dans les collections du département des Manuscrits : fonds Latin et NAL, Français et NAF, Grec et Supplément grec ; Anglais, Allemand, Celtique et basque, Espagnol, Italien, Néerlandais et Portugais (« langues modernes »); Rothschild et Supplément Rothschild, Smith-Lesouëf, 500-Colbert, Chappée, Clairambault, Coislin, Duchesne, Dupuy, Joly de Fleury, Mélanges de Colbert, Moreau (« érudits »); Bourgogne, Champagne, Flandre et Artois, Languedoc Bénédictins, Lorraine, Périgord, Picardie, Touraine-Anjou, Vexin (« provinces françaises »).
- une liste manuelle de 16 manuscrits hébreux produits en Europe a été ajoutée, afin de rendre visible ce corpus (sans en viser l’exhaustivité)
- une requête spécifique a permis de vérifier que certains corpus Gallica de manuscrits médiévaux étaient bien inclus (Europeana Regia, France-Angleterre 700-1200).
https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&exactSearch=false&collapsing=false&version=1.2&query=(dc.type%20all%20%22manuscrit%22)%20and%20(gallicapublication_date%3E=%220500%22%20and%20gallicapublication_date%3C=%221549%22)%20and%20((not%20dc.source%20adj%20%22Biblioth%C3%A8que%20nationale%20de%20France%22))%20or%20(provenance%20adj%20%22bnf.fr%22)%20and%20(access%20all%20%22fayes%22)%20sortby%20indexationdate/sort.descending
https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&exactSearch=false&collapsing=true&version=1.2&query=(((gallica%20all%20%22PlnskyFA%22%20or%20gallica%20all%20%22RegiaAragon%22%20)%20or%20gallica%20all%20%22RegiaCarol%22%20)%20or%20gallica%20all%20%22RegiaCharlesV%22%20)%20%20and%20((bibliotheque%20adj%20%22Biblioth%C3%A8que%20nationale%20de%20France%22))%20and%20(provenance%20adj%20%22bnf.fr%22)&suggest=10&keywords=
- Pour les objets, trois ensembles documentaires de monnaies, correspondant aux trésors de Cuts, de Fécamp et à un corpus de monnaies médiévales européennes, ont été sélectionnés, à partir de listes de cotes. Bien que l’ensemble du set OAI « objets » de Gallica ait été intégré dans Europeana (y compris d’autres monnaies et objets médiévaux), seuls ces ensembles identifiés ont été intégrés dans la collection ARMA.
La collection ainsi constituée correspond à un vaste ensemble d’objets médiévaux, représentatif de Gallica, mais non exhaustif. Il s’agit par ailleurs d’un instantané figé à la date d’extraction des données, début décembre 2021. En effet, bien que constituée à partir de requêtes OAI, la liste a nécessité plusieurs interventions humaines (relectures, sélections et exclusions manuelles...) et il n’est pas prévu de l’entretenir de façon continue.
Enrichissement des métadonnées
Les partenaires du projet ARMA se sont accordés sur un certain nombre de métadonnées « indispensables », « vivement souhaitables » ou « intéressantes » pour chaque document numérique.
Ces recommandations prennent la forme d’un guide d’application du format XML Europeana Data Model (EDM), utilisé par la plateforme Europeana, accessible sur le site du projet : https://www.medieval-reads.eu/docs.
Dans le cas de Gallica, l’indexation dans Europeana s’appuie sur un moissonnage des entrepôts OAI, et donc sur les notices en DublinCore de chaque document numérique. Ces notices minimales sont issues des catalogues de la BnF (BnF Archives et Manuscrits et BnF catalogue général), mais très simplifiées. Elles ne contiennent pas, en particulier, de liens explicites à des référentiels d’autorité.
Pour la collection médiévale du projet ARMA, il a été décidé d’ajouter manuellement (sur la base d’un tableau de données) un certain nombre de métadonnées, en particulier sous forme de lien vers une entité Wikidata.
Les informations suivantes ont été ajoutées systématiquement :
- Statut vis-à-vis du projet ARMA à travers trois ensembles (<dcterms:isPartOf>)
- « Art of Reading in the Middle Ages: newly digitised item » pour les numérisations financées par le projet ARMA (60 manuscrits)
- « Art of Reading in the Middle Ages: previously digitised item » pour les documents déjà accessibles dans Gallica et intégrés à Europeana dans le cadre du projet
- « Art of Reading in the Middle Ages: updated item » pour les documents déjà accessibles sur Europeana avant le début du projet
- Type de document (<dc:type>) : les métadonnées issues de l’OAI sont enrichies des URI Wikidata correspondantes, suivant les cas
- https://www.wikidata.org/wiki/Q87167 Manuscripts
- https://www.wikidata.org/wiki/Q1261026 Printed Materials
- https://www.wikidata.org/wiki/Q216665 Incunable (pour les imprimés édités avant 1501)
- https://www.wikidata.org/wiki/Q41207 Coins
- https://www.wikidata.org/wiki/Q4006 Maps
- Date de création (<dcterms:created>) : URI Wikidata du ou des siècles de création, calculé d’après la valeur de la date (<dc:date>) dans la notice OAI. Lorsque la date s’étend sur plusieurs siècles, chacune des URI correspondantes est incluse.
- https://www.wikidata.org/wiki/Q8099 IVe siècle (0301/0400)
- https://www.wikidata.org/wiki/Q8095 Ve siècle (0401/0500)
- https://www.wikidata.org/wiki/Q8090 VIe siècle (0501/0600)
- https://www.wikidata.org/wiki/Q8089 VIIe siècle (0601/0700)
- https://www.wikidata.org/wiki/Q8086 VIIIe siècle (0701/0800)
- https://www.wikidata.org/wiki/Q8083 IXe siècle (0801/0900)
- https://www.wikidata.org/wiki/Q8052 Xe siècle (0901/1000)
- https://www.wikidata.org/wiki/Q7063 XIe siècle (1001/1100)
- https://www.wikidata.org/wiki/Q7061 XIIe siècle (1101/1200)
- https://www.wikidata.org/wiki/Q7049 XIIIe siècle (1201/1300)
- https://www.wikidata.org/wiki/Q7034 XIVe siècle (1301/1400)
- https://www.wikidata.org/wiki/Q7018 XVe siècle (1401/1500)
- https://www.wikidata.org/wiki/Q7017 XVIe siècle (1501/1600)
- https://www.wikidata.org/wiki/Q7016 XVIIe siècle (1601/1700)
- Sujet (<dc:subject>) : pour l’ensemble de la collection médiévale, les trois URI Wikidata suivantes ont systématiquement été ajoutées
- https://www.wikidata.org/wiki/Q12554 Middle Ages
- https://www.wikidata.org/wiki/Q107274057 Reading culture
- https://www.wikidata.org/wiki/Q107274053 Reading culture (medieval)
Pour les manuscrits et (dans une moindre mesure) les livres imprimés, lorsque l’information pouvait être extraite de la notice Dublin Core :
- Support matériel (<dcterms:medium>)
Pour les livres imprimés, lorsque l’information pouvait être extraite de la notice Dublin Core :
- Localisation (<dcterms:spatial>), considérée ici comme lieu de publication
- Voir la liste des entités Wikidata utilisées
Pour les monnaies, les informations supplémentaires suivantes ont été issues des tableaux de chargement ayant servi à la création des notices dans le catalogue général de la BnF :
- Corpus (<dcterms:isPartOf>) avec les deux trésors monétaires concernés :
- https://www.wikidata.org/wiki/Q110801554 Trésor de Cuts
- https://www.wikidata.org/wiki/Q110801742 Trésor de Fécamp
- Localisation (<dcterms:spatial>), ici le lieu d’implantation de l’atelier monétaire
- Voir la liste des entités Wikidata utilisées
Enfin, dans le cadre du projet ARMA, quelques ouvrages ont fait l’objet d’un traitement particulier. Il s’agit d’une part des 60 manuscrits dont la numérisation a été financée et réalisée dans le cadre du projet ; d’autre part d’un ensemble de 31 manuscrits et incunables considérés comme « objets exceptionnels » (Outstanding objects) sélectionnés pour faire l’objet d’une médiation particulière. Pour l’ensemble de ces numérisation, une classification supplémentaire, propre au projet, a été ajoutée :
- Sujet (<dc:subject>)
- https://www.wikidata.org/wiki/Q107273302 Reading culture (monastic)
- https://www.wikidata.org/wiki/Q107274048 Reading culture (courtly)
- https://www.wikidata.org/wiki/Q107274045 Reading culture (urban)
- https://www.wikidata.org/wiki/Q107274147 Reading culture (devotional)
- https://www.wikidata.org/wiki/Q107274132 Reading culture (liturgical)
- https://www.wikidata.org/wiki/Q107274138 Reading culture (academic)
- https://www.wikidata.org/wiki/Q108134954 Reading culture (educational)
Bilan de l’indexation dans Europeana
En juin 2022, à l’issue du projet, Europeana a procédé à la réindexation complète des principaux sets OAI des collections numérisées de la BnF, qui avaient été versées pour la dernière fois en 2018 (en 2021 pour les monographies). Les nouvelles numérisations de Gallica ont ainsi rejoint la collection européenne, et les métadonnées des numérisations plus anciennes ont été mises à jour.
Cette opération a concerné 909 153 documents (47 203 de la collection médiévale ARMA), dont seulement 761 144 étaient déjà présents dans Europeana.
Collection |
Total 2022 |
Précédente |
Europeana |
|
---|---|---|---|---|
Cartes |
70 174 |
9200517 |
||
Manuscrits numérisés pour ARMA |
0 |
780 |
||
Manuscrits |
76 812 |
9200519 |
||
Objets |
177 492 |
9200521 |
||
Monographies |
436 666 |
794 |
||
TOTAL |
47 203 |
909 153 |
761 144 |
|
Chacun des documents d’Europeana utilise un identifiant unique composé d’un identifiant de dataset (cf. tableau ci-dessus) et d’un identifiant local ; dans le cas des documents provenant de Gallica, celui-ci est dérivé de l’identifiant ark du document numérique (où les caractères spéciaux : et / sont remplacés par des barres de soulignement _). Par exemple, https://gallica.bnf.fr/ark:/12148/btv1b11299427t devient http://data.europeana.eu/item/9200521/ark__12148_btv1b11299427t. Il est possible d’obtenir la notice XML au format EDM en utilisant l’API OAI/PMH d’Europeana (ici, par exemple : https://api.europeana.eu/oai/record?verb=GetRecord&identifier=http://data.europeana.eu/item/9200521/ark__12148_btv1b11299427t&metadataPrefix=edm)
Il est également possible de télécharger l’ensemble des notices EDM de chaque set en utilisant le service FTP mis à disposition par Europeana à l’adresse ftp://download.europeana.eu/dataset/ (documentation en anglais sur le site d’Europeana).
Alimentée par l’ensemble des partenaires, la collection numérique ARMA comptait à la fin du projet 66 327 documents consultables sur Europeana. Ces documents font l’objet d’une valorisation spécifique (expositions virtuelles, billets de blog, vidéos de présentation…) sur une page dédiée au Moyen Âge.
API et jeux de données liés
L’API SRU de recherche dans Gallica a été utilisée pour la sélection des monographies, cartes et manuscrits médiévaux. Les résultats ont fait l’objet d’un retraitement manuel, notamment sur la base de métadonnées (cotes) extraites grâce à l’API Document (OAIRecord) de Gallica.
Les documents intégrés à la plateforme Europeana peuvent être interrogés grâce aux services et API propres à Europeana, documentés (en anglais) sur le site Europeana Pro (une inscription préalable peut-être nécessaire pour certaines API).
Les requêtes par dataset et limitées ou non au contenu ARMA, citées plus haut, utilisent l’API Recherche d’Europeana. Des services de téléchargement et de moissonnage (OAI/PMH) sont mis à disposition (voir ci-dessus), et une API Notice permet de récupérer les métadonnées de chaque document au format JSON ou RDF.
Dans le cadre du projet ARMA, l’ensemble des métadonnées (sauf pour les monnaies) étaient issues des notices Dublin Core de Gallica. Un autre jeu de données abord la question de la constitution d’un corpus de manuscrits médiévaux à partir du catalogue BnF Archives et Manuscrits et de ses instruments de recherche en EAD (en cours de publication).
Aide
Dublin Core Format bibliographique
Le Dublin Core simple propose 15 attributs, facultatifs et répétables :
Contenu
- Titre dc:title
- Sujet dc:subject
- Description dc:description
- Source, origine de l'information dc:source
- Langue dc:language
- Relation avec d'autres ressources dc:relation
- Couverture chronologique et géographique dc:coverage
Propriété intellectuelle
- Auteur dc:creator
- Contributeur dc:contributor
- Editeur dc:publisher
- Droits, conditions d'utilisation dc:rights
Instanciation
- Date dc:date
- Type de document (texte, image, son, etc) dc:type
- Format dc:format
- Identifiant dc:identifier
Présentation des 15 éléments sur le site officiel du Dublin Core
Télécharger
Fiche Technique
Date de mise en ligne2022
FormatCSV XLS / XLSX
Licence TechnologiesOAI-PMH Dublin Core
SujetsHistoire du livre et de la lecture Manuscrits Livres Cartes Monnaies