Gallica : jeu d'images annotées pour la classification
Présentation
Ce jeu de données est dédié à l'analyse de contenus iconographiques patrimoniaux. Il constitue une vérité terrain d’illustrations extraites de Gallica classées manuellement et destinées à l’entraînement de modèles de classification.

Contenu du jeu de données
Le jeu est constitué de 14000 illustrations classées en dix catégories recouvrant les notions de technique (photographie, dessin, etc.) et de fonction (BD, carte, etc.), auxquelles sont adjointes deux classes servant à filtrer des contenus non illustrés.
Ces illustrations ont été extraites de Gallica d’après la thématique « Première guerre mondiale » et couvrent la période temporelle 1910-1920.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Les fichiers des illustrations sont répartis dans des dossiers et sous-dossiers correspondant aux catégories décrites ci-avant et aux types documentaires auxquelles elles appartiennent (presse quotidienne, revues et magazines, monographies, images fixes, cartes et plans, etc. conformément à l’organisation des collections numérisées de Gallica).
Contexte de production
Ce jeu a été produit lors de la réalisation du démonstrateur GallicaPix avec des objectifs d'indexation automatique de contenus image (CBIR, content-based image retrieval). Il a été utilisé pour entrainer les modèles de classification du démonstrateur (voir ce github).
Format du jeu de données
Le jeu de données est livré sous la forme d'un export des images (format JPEG) extraites de Gallica (deux archives ZIP).
API et jeux de données en relation
L'API Gallica IIIF est utilisée pour l’extraction des images de Gallica.
Télécharger
Fiche Technique
Date de mise en ligne01/05/2020
FormatJPEG / JPG
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesGT
SujetsImages Intelligence artificielle (IA)