Gallica : jeu d'images annotées pour la classification
Présentation
Ce jeu de données est dédié à l'analyse de contenus iconographiques patrimoniaux. Il constitue une vérité terrain d’illustrations extraites de Gallica classées manuellement et destinées à l’entraînement de modèles de classification.
Contenu du jeu de données
Le jeu est constitué de 14000 illustrations classées en dix catégories recouvrant les notions de technique (photographie, dessin, etc.) et de fonction (BD, carte, etc.), auxquelles sont adjointes deux classes servant à filtrer des contenus non illustrés.
Ces illustrations ont été extraites de Gallica d’après la thématique « Première guerre mondiale » et couvrent la période temporelle 1910-1920.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Les fichiers des illustrations sont répartis dans des dossiers et sous-dossiers correspondant aux catégories décrites ci-avant et aux types documentaires auxquelles elles appartiennent (presse quotidienne, revues et magazines, monographies, images fixes, cartes et plans, etc. conformément à l’organisation des collections numérisées de Gallica).
Contexte de production
Ce jeu a été produit lors de la réalisation du démonstrateur GallicaPix avec des objectifs d'indexation automatique de contenus image (CBIR, content-based image retrieval). Il a été utilisé pour entrainer les modèles de classification du démonstrateur (voir ce github).
Format du jeu de données
Le jeu de données est livré sous la forme d'un export des images (format JPEG) extraites de Gallica (deux archives ZIP).
API et jeux de données en relation
L'API Gallica IIIF est utilisée pour l’extraction des images de Gallica.
Aide
Téléchargement des jeux de données
Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.
Télécharger
Fiche Technique
Date de mise en ligne01/05/2020
FormatJPEG / JPG
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesGT Classification
SujetsImages Intelligence artificielle (IA) Documents