Logo BnF

API et jeux de données

fr
  • Accueil
    • Catalogue général de la BnF
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Mandragore
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Mandragore : Jeu D'images Annotées Sur Le Thème De La Zoologie
JPEG / JPG CSV GT Classification Intelligence artificielle (IA) Images

Mandragore : jeu d'images annotées sur le thème de la zoologie


Présentation

Ce jeu de données est dédié à l'analyse des contenus iconographiques d’ouvrages anciens. Il constitue une vérité terrain d'enluminures annotées sémantiquement, extraites de la base de données Mandragore et traitant du thème de la zoologie.

 

cheval_0

  

coq_0

  

serpent_0

 

Contenu du jeu de données

Ce jeu est composé de 23 633 images, annotées par 52 336 descripteurs se rapportant au thème de la zoologie, selon le plan de classement thématique de la base Mandragore.

Superclasses

Descripteurs

Classes

Exemples

Amphibiens

194

3

crapaud, grenouille, salamandre

Autres invertébrés

2380

61

abeille, araignée

Crustacés

166

5

crabe,crevette…

Mammifères

26402

103

allaitement, âne…

Mollusques

473

13

buccin, calamar…

Oiseaux

17914

113

aigle, alouette

Poissons

2128

60

ablette, alose

Reptiles

1646

25

aspic, boa…

Zoologie (généralités)

1033

9

accouplement…

total

52336

392

 

A chaque image, est associée une ou plusieurs notices Mandragore qui décrivent le contenu iconographique de l'image. Dans l'exemple suivant, deux notices décrivent les deux scènes présentes dans la page, Hercule et le lion de Némée et Hercule et les harpyes.

mandragore-1

Note : les boîtes englobantes ne sont pas fournies dans le jeu de données. Elles devraient l'être ultérieurement.

Le contenu de chacune de ces scènes est précisé par l'utilisation de descripteurs choisis dans le référentiel iconographique Mandragore. La première est ainsi indexée par : combat, hercule, lion, nudité, travaux.d'hercule.

Attention : dans ce jeu de données, seuls les descripteurs de la catégorie Zoologie sont utilisés (dans cet exemple, seulement lion).

Contexte de production

Ce jeu a été extrait de la base iconographique Mandragore à des fins de R&D dans le domaine de l'indexation automatique de contenus image (CBIR, content-based image retrieval).

La base complète est en ligne à l'adresse : http://mandragore.bnf.fr.

Ses données sont également exploitées par le portail Biblissima (actuellement en vesion beta) : http://beta.biblissima.fr/.

Format du jeu de données

Le jeu de données est livré sous la forme :

  • d'un export des images (format JPEG), extraites soit de Gallica, soit de la base Mandragore (lorsque les documents n'ont pas encore été numérisés dans Gallica),
  • des métadonnées complètes extraites de la base Mandragore (format Excel) pour le sous-ensemble "Zoologie",
  • de métadonnées reformatées (format CSV) fournissant :
    1. les URL des images,
    2. les associations images/notices de Mandragore,
    3. les associations notices de Mandragore/descripteurs.
Archives Images Commentaires
IMG-Gallica_1.zip 6 000 Documents de Gallica exportés à 50% du format master
IMG-Gallica_2.zip 6 650  
IMG-DRE-Mandragore_1.zip 6 000 Documents de Mandragore exportés à la meilleure résolution disponible
IMG-DRE-Mandragore_2.zip 5 013  

 

Dans l'exemple précédent, l'image est référencée par son identifiant Gallica et son numéro de page. L'URL IIIF d'extraction est fournie (avec un ratio de 50%) :

8530215-35;https://gallica.bnf.fr/iiif/ark:/12148/btv1b85302158/f35/full/pct:50/0/native.jpg

Les deux notices Mandragore associées sont référencées dans le fichier Zoologie-images-notices.csv :

8530215-35;#204237;#204238

Les descripteurs Mandragore sont référencés dans le fichier Zoologie-notices-descripteurs.csv :

#204237;lion (204237)
#204238;oiseau (204238)

La superclasse associée à chacun de ces descripteurs est référencée dans le fichier Zoologie-notices-superclasses.csv :

#204237;mammifères
#204238;oiseaux

Les légendes des scènes peuvent être trouvées dans le fichier des métadonnées complètes, onglet "descripteurs zoologie", colonne E :

204237;hercule et le lion de némée
204238;hercule et les harpyes

 

API et jeux de données en relation

Ce jeu de données est une extraction réalisée à partir des dumps Mandragore également mis à disposition sur ce site.

L'API Gallica IIIF est utilisée pour la manipulation des images de Gallica.

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • Images 1 (3,3 Go)
  • Images 2 (5,1 Go)
  • Images 3 (7,7 Go)
  • Images 4 (6,5 Go)
  • Métadonnées (18,5 Mo)
Fiche Technique
Date de mise en ligne

2019

Format

JPEG / JPG CSV

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

GT Classification

Sujets

Intelligence artificielle (IA) Images

Contact
jean-philippe.moreux@bnf.fr,alexandre.tur@bnf.fr
Partage
Twitter Facebook Linkedin
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube