Mandragore : jeu d'images annotées pour la détection d'objet
Présentation
Ce jeu de données est dédié à l'analyse de contenus iconographiques patrimoniaux. Il constitue une vérité terrain de représentations d’animaux extraites de Mandragore et de Gallica et annotées manuellement, à des fins d’entraînement de modèles de détection d’objet (apprentissage machine).
Contenu du jeu de données
Le jeu est formé de pages annotées extraites de Mandragore et de Gallica, chacune incluant au moins une représentation d’un animal. Il porte principalement sur le genre documentaire des manuscrits, et couvre toutes les périodes historiques.
Il est composé de 1 884 pages numérisées annotées manuellement à l’aide de l’outil labelImg lors du projet de recherche Inria-BnF CIP (Classification d'images patrimoniales). Au sein de chacune de ces pages, les représentations d’animaux ont été identifiées par leur boîte englobante et leur classe zoologique, conduisant à 8 209 annotations.
Une classification phylogénetique a été employée, qui a permis de regrouper les 400 classes de la thématique Zoologie de Mandragore en 30 classes (voir le tableau suivant) dont la cardinalité minimale est supérieure à 100.
Classes |
Annotations |
aegodontia |
117 |
anoure |
206 |
bear |
127 |
bird |
1781 |
bovine |
126 |
butterfly |
150 |
camelini |
139 |
canid |
137 |
caprine |
254 |
cervid |
166 |
cetacean |
148 |
crocodile |
138 |
crustacean |
143 |
dog |
315 |
elephant |
125 |
equid |
733 |
feline |
139 |
fish |
1430 |
insect |
236 |
lion |
252 |
lizard |
160 |
mollusc |
161 |
monkey |
134 |
mustelid |
122 |
porcine |
125 |
rabbit |
220 |
rodent |
158 |
scorpio |
104 |
serpente |
163 |
tortoise |
144 |
total |
8209 |
Des représentations peu fréquentes ont également été annotées mais non utilisées lors du projet CIP. La classe mythology regroupe hydre, griffon, centaure, sirène et autres monstres à forme partiellement animale.
Classes |
Annotations |
erinaceidae |
2 |
herpestoidea |
6 |
mythology |
135 |
rhinocerotidae |
4 |
cephalopod |
2 |
chiroptera |
5 |
spheniscidae |
1 |
macropodidae |
1 |
hippopotamidae |
1 |
giraffidae |
1 |
cnidaria |
1 |
total |
159 |
Contexte de production
Ce jeu a été produit lors du projet de recherche CIP (Classification d'images patrimoniales) mené en collaboration par Inria (laboratoire LinkedMedia) et la BnF. Il est principalement constitué d’illustrations extraites de la base Mandragore (disponibles ici), enrichies avec un petit nombre d’illustrations de Gallica.
Le rapport final du projet CIP est disponible (téléchargement ci-contre).
Format du jeu de données
Le jeu de données inclut :
- une description détaillée de la structure des fichiers de données du jeu de données : files_description.txt
- les métadonnées décrivant les classes (avec les regroupements phylogénétiques des classes Mandragore) et leur quantité : clean-classes_GT.xlsx
- les métadonnées du corpus source Mandragore/Zoologie : dossier Mandragore_metadata
- les données décrivant les boîtes englobantes : annotations_manual.csv et annotations_update.csv,
- les informations concernant les pages numérisées du jeu de données CIP (ID, origine, URL, dimensions, etc.) : images_info.csv
- les pages numérisées de la vérité terrain (1 884 images)
- de scripts permettant de convertir le format PascalVOC produit par labelImg vers le format CSV utilisé par le projet CIP et de générer les pages annotées
- des exemples de vignettes des pages avec l’emprise des objets annotés
Les images originelles utilisées par le projet CIP sont disponibles sur simple demande (23 907 pages, 23 Go).
Télécharger
Fiche Technique
Date de mise en ligne15/08/2021
FormatJPEG / JPG CSV
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesGT Python Détection d'objet
SujetsIntelligence artificielle (IA) Manuscrits Images