Mandragore : jeu d'images annotées sur le thème de la zoologie
Présentation
Ce jeu de données est dédié à l'analyse des contenus iconographiques d’ouvrages anciens. Il constitue une vérité terrain d'enluminures annotées sémantiquement, extraites de la base de données Mandragore et traitant du thème de la zoologie.
Contenu du jeu de données
Ce jeu est composé de 23 633 images, annotées par 52 336 descripteurs se rapportant au thème de la zoologie, selon le plan de classement thématique de la base Mandragore.
Superclasses |
Descripteurs |
Classes |
Exemples |
Amphibiens |
194 |
3 |
crapaud, grenouille, salamandre |
Autres invertébrés |
2380 |
61 |
abeille, araignée |
Crustacés |
166 |
5 |
crabe,crevette… |
Mammifères |
26402 |
103 |
allaitement, âne… |
Mollusques |
473 |
13 |
buccin, calamar… |
Oiseaux |
17914 |
113 |
aigle, alouette |
Poissons |
2128 |
60 |
ablette, alose |
Reptiles |
1646 |
25 |
aspic, boa… |
Zoologie (généralités) |
1033 |
9 |
accouplement… |
total |
52336 |
392 |
|
A chaque image, est associée une ou plusieurs notices Mandragore qui décrivent le contenu iconographique de l'image. Dans l'exemple suivant, deux notices décrivent les deux scènes présentes dans la page, Hercule et le lion de Némée et Hercule et les harpyes.
Note : les boîtes englobantes ne sont pas fournies dans le jeu de données. Elles devraient l'être ultérieurement.
Le contenu de chacune de ces scènes est précisé par l'utilisation de descripteurs choisis dans le référentiel iconographique Mandragore. La première est ainsi indexée par : combat, hercule, lion, nudité, travaux.d'hercule.
Attention : dans ce jeu de données, seuls les descripteurs de la catégorie Zoologie sont utilisés (dans cet exemple, seulement lion).
Contexte de production
Ce jeu a été extrait de la base iconographique Mandragore à des fins de R&D dans le domaine de l'indexation automatique de contenus image (CBIR, content-based image retrieval).
La base complète est en ligne à l'adresse : http://mandragore.bnf.fr.
Ses données sont également exploitées par le portail Biblissima (actuellement en vesion beta) : http://beta.biblissima.fr/.
Format du jeu de données
Le jeu de données est livré sous la forme :
- d'un export des images (format JPEG), extraites soit de Gallica, soit de la base Mandragore (lorsque les documents n'ont pas encore été numérisés dans Gallica),
- des métadonnées complètes extraites de la base Mandragore (format Excel) pour le sous-ensemble "Zoologie",
- de métadonnées reformatées (format CSV) fournissant :
- les URL des images,
- les associations images/notices de Mandragore,
- les associations notices de Mandragore/descripteurs.
Archives | Images | Commentaires |
IMG-Gallica_1.zip | 6 000 | Documents de Gallica exportés à 50% du format master |
IMG-Gallica_2.zip | 6 650 | |
IMG-DRE-Mandragore (4 .zip) | 11 013 | Documents de Mandragore exportés à la meilleure résolution disponible |
Dans l'exemple précédent, l'image est référencée par son identifiant Gallica et son numéro de page. L'URL IIIF d'extraction est fournie (avec un ratio de 50%) :
8530215-35;https://gallica.bnf.fr/iiif/ark:/12148/btv1b85302158/f35/full/pct:50/0/native.jpg
Les deux notices Mandragore associées sont référencées dans le fichier Zoologie-images-notices.csv :
8530215-35;#204237;#204238
Les descripteurs Mandragore sont référencés dans le fichier Zoologie-notices-descripteurs.csv :
#204237;lion (204237)
#204238;oiseau (204238)
La superclasse associée à chacun de ces descripteurs est référencée dans le fichier Zoologie-notices-superclasses.csv :
#204237;mammifères
#204238;oiseaux
Les légendes des scènes peuvent être trouvées dans le fichier des métadonnées complètes, onglet "descripteurs zoologie", colonne E :
204237;hercule et le lion de némée
204238;hercule et les harpyes
API et jeux de données en relation
Ce jeu de données est une extraction réalisée à partir des dumps Mandragore également mis à disposition sur ce site.
L'API Gallica IIIF est utilisée pour la manipulation des images de Gallica.
Aide
Téléchargement des jeux de données
Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.
Télécharger
Fiche Technique
Date de mise en ligne2019
FormatJPEG / JPG CSV
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesGT Classification
SujetsIntelligence artificielle (IA) Images Documents