Gallica : jeu de publicités illustrées
Présentation
Ce jeu de données propose des publicités illustrées parues dans des périodiques du XXe siècle (quotidiens, revues et magazines).
Contenu du jeu de données
Ce jeu de données propose des publicités illustrées parues dans les périodiques du XXe siècle (journaux, revues et magazines). Elles proviennent des corpus numérisés de Gallica traités par le démonstrateur GallicaPix.
Ces publicités ont été identifiées par le moyen de traitements automatiques (OCR, OLR) et manuels. Sauf exceptions signalées ci-après, ce jeu n’est pas une « vérité terrain » (pour un numéro de périodique donné, des publicités peuvent manquer ou au contraire avoir été identifiées par erreur comme publicité). Concernant la notion de « vérité terrain », voir le jeu de données d’illustrations segmentées ci-contre.
La notion de « publicité illustrée » peut également conduire à des interprétations variables, et on trouvera donc des publicités totalement graphiques, des publicités mélangeant texte et illustration, du texte composé sous une forme graphique, etc.
Source | Période | Illustrations | ...identifiées dans (documents) | totalisant (pages) |
1. Périodiques (quotidiens, magazines, revues) | 1910-1920 | 65 634 | 36 077 | 2,54 M |
2. Vogue, édition française | 1920-1940 | 10 616 | 172 | 22 985 |
Contexte de production
Ce jeu a été produit lors de la réalisation du démonstrateur GallicaPix avec des objectifs d'indexation automatique de contenus image. Il est consultable dans GallicaPix :
- Jeu 1 : corpus « Publicités 1418 » (voir illustration en haut de page)
- Jeu 2 : corpus « Vogue » + critère Genre=publicité (voir illustration ci-dessous)
Format du jeu de données
Le jeu de données est livré sous la forme :
- de métadonnées (export au format XML de la base GallicaPix) décrivant chaque document et ses illustrations,
- des métadonnées décrivant la géométrie de chaque illustration dans sa page (format CSV),
- des images des pages avec l’emprise des illustrations (format JPG),
- d’un jeu de scripts Python permettant de produire les vignettes à l’aide de l’API IIIF et les métadonnées CSV à partir des fichiers XML.
Exemple de page avec ses publicités illustrées
Le fichier de métadonnées XML contient un élément <metad> portant les métadonnées bibliographiques du document. Ensuite, un élément <page> fournit les dimensions de la page et son numéro, puis l’élément <ill> décrit l’illustration.
Plusieurs scripts Python3 sont fournis :
- exportIlls.py : génère les vignettes des illustrations et fournit leur URL IIIF. Chaque vignette est stockée dans un dossier nommé d’après l’identifiant ark du document. Les vignettes sont nommées selon ce format : numéro de page-numéro d’illustration dans la page.jpg (5-1.jpg, 5-2.jpg, etc.). La variable docExportFactor paramètre le facteur de taille pour l’extraction des images IIIF (par exemple 20%).
> python3 exportIlls.py -f data.xml
- exportPages.py : génère les vignettes des pages des illustrations et fournit leurs identifiants Gallica. Chaque vignette de page est stockée dans un dossier nommé d’après l’identifiant ark du document. Elle est nommée d’après le numéro de page (f1.jpg, f2.jpg, etc.)
>python3 exportPages.py -f data.xml
- generateImgGT.py : génère les emprises des illustrations sur un fond noir, pour l’entraînement machine. Les vignettes des pages doivent avoir été générées au préalable avec le script exportPages.py et le même facteur de taille IIIF.
> python3 generateImgGT.py -f data.xml
L’option over permet de générer les emprises en transparence sur l’image originale, pour des usages de contrôle visuel.
> python3 generateImgGT.py -f data.xml -over
- generateDataGT.py : génère les emprises des illustrations (en tenant compte du facteur de taille IIIF) au format CSV. Un fichier CSV est produit par page, nommé selon le format ark-numéro de page (btv1b84389096-f5.csv btv1b84389096-f6.csv, etc.).
> python3 generateImgGT.py -f data.xml
Notes concernant les emprises des illustrations :
- Elles sont modélisées sous forme de rectangles, ce qui peut conduire à des imprécisions dans le cas de mises en page complexes.
API et jeux de données en relation
L'API Gallica IIIF est utilisée pour l’extraction des images de Gallica (voir aussi les wrappers Python).
Le jeu de données Segmentation fournit des illustrations vérifiées manuellement, en termes de nature et de position dans la page (« vérité terrain ») pour le magazine Vogue.
Aide
Téléchargement des jeux de données
Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.
Télécharger
Fiche Technique
FormatJSON XML JPEG / JPG
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesIIIF OCR OLR
SujetsImages Presse Intelligence artificielle (IA) Documents