Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Gallica : Jeu D'images Annotées Pour La Segmentation
JPEG / JPG JSON XML Python GT Segmentation Images Intelligence artificielle (IA) Documents

Gallica : jeu d'images annotées pour la segmentation


Présentation

Ce jeu de données est dédié à l'analyse de contenus iconographiques patrimoniaux. Il constitue une vérité terrain d’illustrations extraites de Gallica segmentées manuellement et destinées à l’entraînement de modèles de segmentation automatique.

Contenu du jeu de données

Le jeu est constitué d’illustrations segmentées de Gallica. Elles proviennent des corpus traités par le démonstrateur GallicaPix.

Technique

Description

Source

Période

Illustrations

Pages

Documents

photographie

portraits, cartes postales, portfolios et recueil, etc.

Collection Images  Gallica

1910-1920

1000

634

54

imprimé

illustrations, photographie, publicités, etc.

Magazine Vogue

1920-1940

1869

832

12 numéros

 

Un exemple d'illustrations

Contexte de production

Ce jeu a été produit lors de la réalisation du démonstrateur GallicaPix avec des objectifs d'indexation automatique de contenus image.

Format du jeu de données

Le jeu de données est livré sous la forme :

  • de métadonnées (export au format XML de la base GallicaPix) décrivant chaque document et ses illustrations,
  • des métadonnées décrivant la géométrie de chaque illustration dans sa page (format CSV),
  • pour les périodiques :
    • d’un export des illustrations sous la forme de listes d’annotations IIIF (format JsonML),
    • d’une collection IIIF regroupant les numéros du périodique, classés par année. Elle permet de les consulter dans un visualiseur IIIF.
  • des images des pages avec l’emprise des illustrations (format JPG),
  • d’un jeu de scripts Python permettant de produire les vignettes à l’aide de l’API IIIF et les métadonnées CSV à partir des fichiers XML.
Un exemple de page et de masque

Exemple de page avec ses emprises

Le fichier de métadonnées XML contient un élément <doc> par illustration, portant les métadonnées bibliographiques du document. Ensuite, un élément <page> fournit les dimensions de la page et son numéro, puis l’élément <ill> décrit l’illustration. NB : une page portant plusieurs illustrations donnera lieu à autant d’éléments <doc> que d’illustrations.

Plusieurs scripts Python3 sont fournis :

  • getDocumentIDs.py : génère les identifiants des documents Gallica présents dans le jeu de données
> python3 getDocumentIDs.py -f data.xml
  • exportIlls.py : génère les vignettes des illustrations et fournit leur URL IIIF. Chaque vignette est stockée dans un dossier nommé d’après l’identifiant ark du document. Les vignettes sont nommées selon ce format : numéro de page-numéro d’illustration dans la page.jpg (5-1.jpg, 5-2.jpg, etc.). La variable docExportFactor paramètre le facteur de taille pour l’extraction des images IIIF (par exemple 20%).
> python3 exportIlls.py -f data.xml
  • exportPages.py : génère les vignettes des pages des illustrations et fournit leurs identifiants Gallica. Chaque vignette de page est stockée dans un dossier nommé d’après l’identifiant ark du document. Elle est nommée d’après le numéro de page (f1.jpg, f2.jpg, etc.)
>python3 exportPages.py -f data.xml
  • generateImgGT.py : génère les emprises des illustrations sur un fond noir, pour l’entraînement machine. Les vignettes des pages doivent avoir été générées au préalable avec le script exportPages.py et le même facteur de taille IIIF.
> python3 generateImgGT.py -f data.xml

L’option over permet de générer les emprises en transparence sur l’image originale, pour des usages de contrôle visuel.

> python3 generateImgGT.py -f data.xml -over
Un exemple d'emprise d'une illustration

 

  • generateDataGT.py : génère les emprises des illustrations (en tenant compte du facteur de taille IIIF) au format CSV. Un fichier CSV est produit par page, nommé selon le format ark-numéro de page (btv1b84389096-f5.csv btv1b84389096-f6.csv, etc.). 
> python3 generateDataGT.py -f data.xml

Notes concernant les emprises des illustrations : 

  • Elles sont modélisées sous forme de rectangles, ce qui peut conduire à des imprécisions dans le cas de mises en page complexes.
  • Les emprises ont été créées en suivant autant que possible l’intention éditoriale, ce qui peut conduire à des ambiguïtés d’interprétation.
  • Dans le cas des publicités illustrées, il est souvent difficile d’isoler contenu graphique et texte. Dans ce cas, une emprise globale est proposée.

API et jeux de données en relation

L'API Gallica IIIF est utilisée pour l’extraction des images de Gallica (voir aussi les wrappers Python).

Le jeu de données Classification offre des illustrations classées par technique ou genre pour de l'entraînement machine.

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • Métadonnées XML, images, scripts Python (environ 54 Mo)
Fiche Technique
Date de mise en ligne

15/02/2021

Format

JPEG / JPG JSON XML

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

Python GT Segmentation

Sujets

Images Intelligence artificielle (IA) Documents

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube