Logo BnF

API et jeux de données

fr
  • Accueil
    • Catalogue général de la BnF
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Mandragore
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Mandragore : Jeu D'images Annotées Pour La Détection D'objet
JPEG / JPG CSV GT Python Détection d'objet Intelligence artificielle (IA) Manuscrits Images

Mandragore : jeu d'images annotées pour la détection d'objet


Présentation

Ce jeu de données est dédié à l'analyse de contenus iconographiques patrimoniaux. Il constitue une vérité terrain de représentations d’animaux extraites de Mandragore et de Gallica et annotées manuellement, à des fins d’entraînement de modèles de détection d’objet (apprentissage machine).

Contenu du jeu de données

Le jeu est formé de pages annotées extraites de Mandragore et de Gallica, chacune incluant au moins une représentation d’un animal. Il porte principalement sur le genre documentaire des manuscrits, et couvre toutes les périodes historiques. 

Il est composé de 1 884 pages numérisées annotées manuellement à l’aide de l’outil labelImg lors du projet de recherche Inria-BnF CIP (Classification d'images patrimoniales). Au sein de chacune de ces pages, les représentations d’animaux ont été identifiées par leur boîte englobante et leur classe zoologique, conduisant à 8 209 annotations.

.

 

Une classification phylogénetique a été employée, qui a permis de regrouper les 400 classes de la thématique Zoologie de Mandragore en 30 classes (voir le tableau suivant) dont la cardinalité minimale est supérieure à 100.

Classes

Annotations

aegodontia

117

anoure

206

bear

127

bird

1781

bovine

126

butterfly

150

camelini

139

canid

137

caprine

254

cervid

166

cetacean

148

crocodile

138

crustacean

143

dog

315

elephant

125

equid

733

feline

139

fish

1430

insect

236

lion

252

lizard

160

mollusc

161

monkey

134

mustelid

122

porcine

125

rabbit

220

rodent

158

scorpio

104

serpente

163

tortoise

144

total

8209

 

Des représentations peu fréquentes ont également été annotées mais non utilisées lors du projet CIP. La classe mythology regroupe hydre, griffon, centaure, sirène et autres monstres à forme partiellement animale.

Classes

Annotations

erinaceidae

2

herpestoidea

6

mythology

135

rhinocerotidae

4

cephalopod

2

chiroptera

5

spheniscidae

1

macropodidae

1

hippopotamidae

1

giraffidae

1

cnidaria

1

total

159

Contexte de production

Ce jeu a été produit lors du projet de recherche CIP (Classification d'images patrimoniales) mené en collaboration par Inria (laboratoire LinkedMedia) et la BnF. Il est principalement constitué d’illustrations extraites de la base Mandragore (disponibles ici), enrichies avec un petit nombre d’illustrations de Gallica.

Le rapport final du projet CIP est disponible (téléchargement ci-contre).

Format du jeu de données

Le jeu de données inclut :

  • une description détaillée de la structure des fichiers de données du jeu de données : files_description.txt
  • les métadonnées décrivant les classes (avec les regroupements phylogénétiques des classes Mandragore) et leur quantité : clean-classes_GT.xlsx
  • les métadonnées du corpus source Mandragore/Zoologie : dossier Mandragore_metadata
  • les données décrivant les boîtes englobantes : annotations_manual.csv et annotations_update.csv,
  • les informations concernant les pages numérisées du jeu de données CIP (ID, origine, URL, dimensions, etc.) : images_info.csv
  • les pages numérisées de la vérité terrain (1 884 images)
  • de scripts permettant de convertir le format PascalVOC produit par labelImg vers le format CSV utilisé par le projet CIP et de générer les pages annotées
  • des exemples de vignettes des pages avec l’emprise des objets annotés
vignette

 

Les images originelles utilisées par le projet CIP sont disponibles sur simple demande (23 907 pages, 23 Go).

Télécharger
  • Données (1,3 Mo)
  • Images (1,6 Go)
  • Rapport (2,5 Mo)
Fiche Technique
Date de mise en ligne

15/08/2021

Format

JPEG / JPG CSV

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

GT Python Détection d'objet

Sujets

Intelligence artificielle (IA) Manuscrits Images

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Mandragore : jeu d'images annotées sur le thème de la zoologie

Ce jeu de données est dédié à l'analyse des contenus iconographiques d’ouvrages anciens.

JPEG / JPG CSV GT Classification Intelligence artificielle (IA) Images
Échantillon segmenté d'enluminures de Mandragore

Dans le cadre d'expérimentations liées à la reconnaissance automatique d'images à partir d'enluminures de Mandragore, un petit corpus de 8 manuscrits a été segmenté manuellement afin de faire office d'échantillon d'apprentissage.

JSON CSV IIIF GT Détection d'objet Segmentation Manuscrits Images Intelligence artificielle (IA)
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube