JSON XML JPEG / JPG IIIF OCR OLR Images Presse Intelligence artificielle (IA) Documents

Gallica : jeu de publicités illustrées

Présentation

Ce jeu de données propose des publicités illustrées parues dans des périodiques du XXe siècle (quotidiens, revues et magazines).

Contenu du jeu de données

Ce jeu de données propose des publicités illustrées parues dans les périodiques du XXe siècle (journaux, revues et magazines). Elles proviennent des corpus numérisés de Gallica traités par le démonstrateur GallicaPix.

Ces publicités ont été identifiées par le moyen de traitements automatiques (OCR, OLR) et manuels. Sauf exceptions signalées ci-après, ce jeu n’est pas une « vérité terrain » (pour un numéro de périodique donné, des publicités peuvent manquer ou au contraire avoir été identifiées par erreur comme publicité). Concernant la notion de « vérité terrain », voir le jeu de données d’illustrations segmentées ci-contre.

La notion de « publicité illustrée » peut également conduire à des interprétations variables, et on trouvera donc des publicités totalement graphiques, des publicités mélangeant texte et illustration, du texte composé sous une forme graphique, etc.

Source	Période	Illustrations	...identifiées dans (documents)	totalisant (pages)
1. Périodiques (quotidiens, magazines, revues)	1910-1920	65 634	36 077	2,54 M
2. Vogue, édition française	1920-1940	10 616	172	22 985

Contexte de production

Ce jeu a été produit lors de la réalisation du démonstrateur GallicaPix avec des objectifs d'indexation automatique de contenus image. Il est consultable dans GallicaPix :

Jeu 1 : corpus « Publicités 1418 » (voir illustration en haut de page)
Jeu 2 : corpus « Vogue » + critère Genre=publicité (voir illustration ci-dessous)

Format du jeu de données

Le jeu de données est livré sous la forme :

de métadonnées (export au format XML de la base GallicaPix) décrivant chaque document et ses illustrations,
des métadonnées décrivant la géométrie de chaque illustration dans sa page (format CSV),
des images des pages avec l’emprise des illustrations (format JPG),
d’un jeu de scripts Python permettant de produire les vignettes à l’aide de l’API IIIF et les métadonnées CSV à partir des fichiers XML.

Exemple de page avec ses publicités illustrées

Le fichier de métadonnées XML contient un élément <metad> portant les métadonnées bibliographiques du document. Ensuite, un élément <page> fournit les dimensions de la page et son numéro, puis l’élément <ill> décrit l’illustration.

Plusieurs scripts Python3 sont fournis :

exportIlls.py : génère les vignettes des illustrations et fournit leur URL IIIF. Chaque vignette est stockée dans un dossier nommé d’après l’identifiant ark du document. Les vignettes sont nommées selon ce format : numéro de page-numéro d’illustration dans la page.jpg (5-1.jpg, 5-2.jpg, etc.). La variable docExportFactor paramètre le facteur de taille pour l’extraction des images IIIF (par exemple 20%).

> python3 exportIlls.py -f data.xml

exportPages.py : génère les vignettes des pages des illustrations et fournit leurs identifiants Gallica. Chaque vignette de page est stockée dans un dossier nommé d’après l’identifiant ark du document. Elle est nommée d’après le numéro de page (f1.jpg, f2.jpg, etc.)

>python3 exportPages.py -f data.xml

generateImgGT.py : génère les emprises des illustrations sur un fond noir, pour l’entraînement machine. Les vignettes des pages doivent avoir été générées au préalable avec le script exportPages.py et le même facteur de taille IIIF.

> python3 generateImgGT.py -f data.xml

L’option over permet de générer les emprises en transparence sur l’image originale, pour des usages de contrôle visuel.

> python3 generateImgGT.py -f data.xml -over

generateDataGT.py : génère les emprises des illustrations (en tenant compte du facteur de taille IIIF) au format CSV. Un fichier CSV est produit par page, nommé selon le format ark-numéro de page (btv1b84389096-f5.csv btv1b84389096-f6.csv, etc.).

> python3 generateImgGT.py -f data.xml

Notes concernant les emprises des illustrations :

Elles sont modélisées sous forme de rectangles, ce qui peut conduire à des imprécisions dans le cas de mises en page complexes.

API et jeux de données en relation

L'API Gallica IIIF est utilisée pour l’extraction des images de Gallica (voir aussi les wrappers Python).

Le jeu de données Segmentation fournit des illustrations vérifiées manuellement, en termes de nature et de position dans la page (« vérité terrain ») pour le magazine Vogue.

Aide

Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger

Métadonnées JSON et XML, CSV, vignettes (110 Mo)

Fiche Technique

Date de dernière mise à jour

2024

Quantité

76k

Formats techniques

JSON XML JPEG / JPG

Technologies

IIIF OCR OLR

Sujets

Images Presse Intelligence artificielle (IA) Documents

Langue

français

Licence

Conditions d'utilisation des contenus de Gallica

Contact

gallica@bnf.fr

Partage

Twitter Facebook Linkedin