Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Gallica : Jeu D'images Annotées Pour La Classification
JPEG / JPG GT Classification Images Intelligence artificielle (IA) Documents

Gallica : jeu d'images annotées pour la classification


Présentation

Ce jeu de données est dédié à l'analyse de contenus iconographiques patrimoniaux. Il constitue une vérité terrain d’illustrations extraites de Gallica classées manuellement et destinées à l’entraînement de modèles de classification.

Une sélection d'illustrations

 

Contenu du jeu de données

Le jeu est constitué de 14000 illustrations classées en dix catégories recouvrant les notions de technique (photographie, dessin, etc.) et de fonction (BD, carte, etc.), auxquelles sont adjointes deux classes servant à filtrer des contenus non illustrés.

Ces illustrations ont été extraites de Gallica d’après la thématique « Première guerre mondiale » et couvrent la période temporelle 1910-1920.
 

Nom

Définition

Remarques

Quantité

BD

Bande dessinée de presse, images d’Epinal

 

308

Carte

Carte géographique, plan urbain, plan en relief, etc.

 

609

Dessin

Dessin au trait, dessin de presse, fusain, etc.

Avec sous-catégories (couleur, avec texte, etc.)

2758

Graphique

Graphique, schéma, dessin technique, mots-croisés, etc.

 

466

Gravure

Gravure, estampe, lithographie, sérigraphie 

Avec sous-catégories

2323

Manuscrit

Reproduction d’un texte manuscrit (autographe, lettre, etc.)

 

132

Ornement

Illustration ornementale (filet, cul de lampe, vignette), principalement dans les périodiques

 

119

Pages

Pages liminaires, de couverture, vierges, etc.

Cette classe a vocation à filtrer les contenus non illustrés

361

Partition

Musique notée (imprimée ou manuscrite) : partitions, chansons, extraits reproduits dans la presse, etc.

Avec sous-catégories  

849

Photographie

Tirage d’œuvre photographique ou reproduction par procédé photomécanique

Avec sous-catégories (argentique, reproduction photo-mécanique, avec texte, etc.)

5500

Publicité

Illustration publicitaire parue dans les périodiques

 

257

Texte

Texte imprimé (page ou bloc de texte imprimé ou tapuscrit, publicité, etc.)

Avec sous-catégories. Cette classe a vocation à filtrer les contenus non illustrés 

704

 

Les fichiers des illustrations sont répartis dans des dossiers et sous-dossiers correspondant aux catégories décrites ci-avant et aux types documentaires auxquelles elles appartiennent (presse quotidienne, revues et magazines, monographies, images fixes, cartes et plans, etc. conformément à l’organisation des collections numérisées de Gallica).

Contexte de production

Ce jeu a été produit lors de la réalisation du démonstrateur GallicaPix avec des objectifs  d'indexation automatique de contenus image (CBIR, content-based image retrieval). Il a été utilisé pour entrainer les modèles de classification du démonstrateur (voir ce github).

Format du jeu de données

Le jeu de données est livré sous la forme d'un export des images (format JPEG) extraites de Gallica (deux archives ZIP).

API et jeux de données en relation

L'API Gallica IIIF est utilisée pour l’extraction des images de Gallica.

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • Images (7 Go)
Fiche Technique
Date de mise en ligne

01/05/2020

Format

JPEG / JPG

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

GT Classification

Sujets

Images Intelligence artificielle (IA) Documents

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube