Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Gallica : Jeu De Publicités Illustrées
JSON XML JPEG / JPG IIIF OCR OLR Images Presse Intelligence artificielle (IA) Documents

Gallica : jeu de publicités illustrées


Présentation

Ce jeu de données propose des publicités illustrées parues dans des périodiques du XXe siècle (quotidiens, revues et magazines).

publicités

Contenu du jeu de données

Ce jeu de données propose des publicités illustrées parues dans les périodiques du XXe siècle (journaux, revues et magazines). Elles proviennent des corpus numérisés de Gallica traités par le démonstrateur GallicaPix.

Ces publicités ont été identifiées par le moyen de traitements automatiques (OCR, OLR) et manuels. Sauf exceptions signalées ci-après, ce jeu n’est pas une « vérité terrain » (pour un numéro de périodique donné, des publicités peuvent manquer ou au contraire avoir été identifiées par erreur comme publicité). Concernant la notion de « vérité terrain », voir le jeu de données d’illustrations segmentées ci-contre.

La notion de « publicité illustrée » peut également conduire à des interprétations variables, et on trouvera donc des publicités totalement graphiques, des publicités mélangeant texte et illustration, du texte composé sous une forme graphique, etc.

 

Source Période Illustrations ...identifiées dans (documents) totalisant (pages)
1. Périodiques (quotidiens, magazines, revues) 1910-1920 65 634 36 077 2,54 M
2. Vogue, édition française 1920-1940 10 616 172 22 985

 

 

Contexte de production

Ce jeu a été produit lors de la réalisation du démonstrateur GallicaPix avec des objectifs  d'indexation automatique de contenus image. Il est consultable dans GallicaPix :

  • Jeu 1 : corpus « Publicités 1418 » (voir illustration en haut de page)
  • Jeu 2 : corpus « Vogue » + critère Genre=publicité (voir illustration ci-dessous)
Publicités Vogue

Format du jeu de données

Le jeu de données est livré sous la forme :

  • de métadonnées (export au format XML de la base GallicaPix) décrivant chaque document et ses illustrations,
  • des métadonnées décrivant la géométrie de chaque illustration dans sa page (format CSV),
  • des images des pages avec l’emprise des illustrations (format JPG),
  • d’un jeu de scripts Python permettant de produire les vignettes à l’aide de l’API IIIF et les métadonnées CSV à partir des fichiers XML.
page

Exemple de page avec ses publicités illustrées

Le fichier de métadonnées XML contient un élément <metad> portant les métadonnées bibliographiques du document. Ensuite, un élément <page> fournit les dimensions de la page et son numéro, puis l’élément <ill> décrit l’illustration.

Plusieurs scripts Python3 sont fournis :

  • exportIlls.py : génère les vignettes des illustrations et fournit leur URL IIIF. Chaque vignette est stockée dans un dossier nommé d’après l’identifiant ark du document. Les vignettes sont nommées selon ce format : numéro de page-numéro d’illustration dans la page.jpg (5-1.jpg, 5-2.jpg, etc.). La variable docExportFactor paramètre le facteur de taille pour l’extraction des images IIIF (par exemple 20%).
> python3 exportIlls.py -f data.xml
  • exportPages.py : génère les vignettes des pages des illustrations et fournit leurs identifiants Gallica. Chaque vignette de page est stockée dans un dossier nommé d’après l’identifiant ark du document. Elle est nommée d’après le numéro de page (f1.jpg, f2.jpg, etc.)
>python3 exportPages.py -f data.xml
  • generateImgGT.py : génère les emprises des illustrations sur un fond noir, pour l’entraînement machine. Les vignettes des pages doivent avoir été générées au préalable avec le script exportPages.py et le même facteur de taille IIIF.
> python3 generateImgGT.py -f data.xml

L’option over permet de générer les emprises en transparence sur l’image originale, pour des usages de contrôle visuel.

> python3 generateImgGT.py -f data.xml -over
  • generateDataGT.py : génère les emprises des illustrations (en tenant compte du facteur de taille IIIF) au format CSV. Un fichier CSV est produit par page, nommé selon le format ark-numéro de page (btv1b84389096-f5.csv btv1b84389096-f6.csv, etc.). 
> python3 generateImgGT.py -f data.xml

Notes concernant les emprises des illustrations : 

  • Elles sont modélisées sous forme de rectangles, ce qui peut conduire à des imprécisions dans le cas de mises en page complexes.

API et jeux de données en relation

L'API Gallica IIIF est utilisée pour l’extraction des images de Gallica (voir aussi les wrappers Python).

Le jeu de données Segmentation fournit des illustrations vérifiées manuellement, en termes de nature et de position dans la page (« vérité terrain ») pour le magazine Vogue.

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • Métadonnées JSON et XML, CSV, vignettes (110 Mo)
Fiche Technique
Format

JSON XML JPEG / JPG

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

IIIF OCR OLR

Sujets

Images Presse Intelligence artificielle (IA) Documents

Contact
gallica@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Gallica : jeu d'images annotées pour la segmentation

Ce jeu de données est dédié à l'analyse de contenus iconographiques patrimoniaux.

JPEG / JPG JSON XML Python GT Segmentation Images Intelligence artificielle (IA) Documents
API IIIF de récupération des images de Gallica

L'API IIIF (International Image Interoperability Framework) est une API standardisée par le consortium IIIF  permettant la manipulation homogène d'images indépendamment de leurs localisati

JPEG / JPG TIFF IIIF Images
Documents de presse numérisés en mode « article »

Ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition).

METS ALTO OLR GT OCR Textes Presse Documents
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube