CSV JSON Texte XML OLR OCR Presse Documents

Gallica : feuilletons littéraires dans la presse

Présentation

Ce jeu de données regroupe des romans-feuilletons parus dans la presse française du XIX^e siècle. Il inclut à la fois le texte des feuilletons ainsi que les métadonnées associées (titre de presse et date de parution, titre du feuilleton, auteur, identifiant du document Gallica, emplacement dans le fascicule, etc.).

Contenu du jeu de données

Le jeu propose les feuilletons parus dans plusieurs titres de presse nationale ou régionale numérisés dans Gallica.

Titre	Numéros	Calendrier	Nombre de numéros contenant au moins un feuilleton
L’Auto (Paris, 1900)	16 346	https://gallica.bnf.fr/ark:/12148/cb327071375/date	2 872
La Démocratie pacifique	2 262	https://gallica.bnf.fr/ark:/12148/cb32755585p/date	1 577
La Dépêche (Toulouse)	24 312	https://gallica.bnf.fr/ark:/12148/cb327558876/date	22 483
La France (Paris. 1862)	2 897	https://gallica.bnf.fr/ark:/12148/cb327773077/date	2 707
La Liberté (Paris. 1865)	26 044	https://gallica.bnf.fr/ark:/12148/cb328066631/date	19 676
La Petite Presse	14 457	https://gallica.bnf.fr/ark:/12148/cb32837965d/date	11 455
Le Courrier (Paris. 1819)	9 595	https://gallica.bnf.fr/ark:/12148/cb32749956z/date	958
Le Cri du Peuple	2 508	https://gallica.bnf.fr/ark:/12148/cb32752488q/date	1 988
Le Grand écho du Nord de la France	15 274	https://gallica.bnf.fr/ark:/12148/cb32783482h/date	15 227
Le Pays (Paris. 1849)	20 517	https://gallica.bnf.fr/ark:/12148/cb328343740/date	16 817

Contexte de production

Ce jeu a été produit à l’occasion du travail scientifique de Morgane Avellaneda, chargée de recherche documentaire (BnF/université de Saint-Étienne). Dans le cadre de sa thèse, une sélection Gallica consacrée aux feuilletons dans la presse a été mise en ligne, dont une présentation est donnée sur le blog Gallica. Une journée d’étude a été consacrée à ce sujet en avril 2021.

Le jeu de données s’appuie sur des programmes de numérisation de la presse ayant appliqué une reconnaissance de la mise en page (OLR, optical layout recognition ; voir à ce sujet les jeux de données OLR référencés ci-contre pour une plus ample description de cette technique). Cette reconnaissance conduit à une description fine des contenus de chaque fascicule (article, section, titre d’article, etc.) ainsi qu’à l’identification des publicités et feuilletons.

Format du jeu de données

Le jeu est décrit par des métadonnées exprimées selon des formalismes CSV et JSON. Il contient également les métadonnées OLR de numérisation (format XML METS décrivant la structure logique d’un numéro).

Exports par titre de journal

Chaque titre de journal présent dans le jeu de données est proposé sous la forme d’une archive .zip nommée d’après l’ark catalogue du titre (cf. tableau ci-dessus).

Un fichier .csv par titre de journal est inclus. Il est nommé selon le titre catalogue normalisé du journal suivi de son identifiant catalogue ark. Il contient pour chaque numéro du journal numérisé dans Gallica (identifié par son ark Gallica) le nombre de feuilletons présents dans le numéro.

L’archive contient enfin la description des numéros concernés (zippés et nommés d’après leur identifiant numérique Gallica).

Par exemple, "cb327071375.zip" contient :

4622996.zip
4623023.zip
4623025.zip
...
LAuto(paris1900)_cb327071375.csv

La description de chaque numéro est établie selon les modalités suivantes.

Exports par numéro

Pour chaque numéro et pour chaque feuilleton publié dans un numéro donné, les éléments suivants sont fournis.

Texte

Le texte de chaque feuilleton publié dans le numéro est fourni dans un fichier .txt. Ces fichiers sont nommés selon l’identifiant ark du numéro, suivi de l’identifiant du feuilleton dans le fichier de structure METS (dmdSec), du titre du feuilleton (25 caractères normalisés, ou "no-title" en cas d'absence de titre) puis de la date de publication.

Exemple : "4626934_DMD181_FEUILLETON-DU-21-AVRIL-19_1905-04-21.txt".

Un tel fichier contient donc le texte du feuilleton paru pour une date donnée ; il est organisé en paragraphes.

Pour reconstruire le texte d’un feuilleton complet, il convient de s’appuyer sur l’identifiant du feuilleton et ses dates de publication successives.

Blocs OCR

Les informations concernant les blocs de texte OCR d’un feuilleton sont fournies dans des fichiers .csv nommés selon l’identifiant ark du numéro, suivi de l’identifiant du feuilleton dans le fichier de structure METS (dmdSec) et de la mention "_text_blocks_info".

Exemple : "4626934_DMD181_text_blocks_info.csv".

Entêtes du .csv :

TEXTBLOCK ID : identifiant du bloc dans le fichier ALTO. L’identifiant inclut également le numéro de la page concernée
HPOS, VPOS, HEIGHT, WIDTH : coordonnées du bloc dans la page
STRINGS : nombre de chaînes de caractères
SPACES : nombre d’espaces
HYPHENS : nombre de césures
AVERAGE WORD CONFIDENCE : taux qualité estimé du texte
FONT SIZE, FONT FAMILY : informations typographiques (si disponibles)

Métadonnées bibliographiques du numéro

Pour chaque numéro, ses métadonnées bibliographiques (titre, date de parution, éditeur, etc.) sont fournies dans un fichier .csv nommé selon l’identifiant ark du numéro, suivi de la mention "_metadata". La dernière ligne du fichier fournit le nombre de feuilletons publiés dans le numéro.

Exemple : "4626934_metadata.csv".

Métadonnées documentaires des feuilletons

Les métadonnées documentaires de chaque feuilleton (titre, auteur, éventuel illustrateur) sont fournies dans un fichier .json nommé selon l’identifiant ark du numéro, suivi de l’identifiant du feuilleton dans le fichier de structure METS (dmdSec) et de la mention "_novel_metadata".

Exemple : "4626934_DMD182_novel_metadata.json".

Lors de l'écriture du ".json" :

tout caractère « " » présent dans les textes des balises xml parsées est remplacé par « \" » ;
tout caractère « \ » présent dans les textes des balises xml parsées est remplacé par « \\ » ;
tout caractère présentant un signe diacritique est remplacé par son code Unicode.

Exemple :
[illisible]EU""GÈNE \C HAV E\12euÙN L :t \-"-1' .i ,e.
devient :
[illisible]EU\"\"G\u00c8NE \\C HAV E\\12eu\u00d9N L :t \\-\"-1' .i ,e.

Fichier de structure METS

Le fichier natif METS (format XML) est également fourni.

API et jeux de données en relation

L’API IIIF peut être utilisée pour extraire les portions d’image concernées par les feuilletons identifiés dans le jeu.

D’autres jeux de données proposent des titres de presse numérisés en mode article (voir ci-contre).

Aide

Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger

Fichiers CSV, JSON, TXT et METS (37 Go)

Fiche Technique

Source des données

Gallica

Date de dernière mise à jour

2023

Formats techniques

CSV JSON Texte XML

Technologies

OLR OCR

Sujets

Presse Documents

Langue

français

Licence

Conditions d'utilisation des contenus de Gallica

Contact

gallica@bnf.fr

Partage

X Facebook Linkedin

Ressources en lien

Documents de presse numérisés en mode « article »

Ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition). Cette…

METS ALTO OLR GT OCR Textes Presse Documents

Documents de presse numérisés en mode « article » du projet Europeana Newspapers

Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance de la mise en page (OLR, optical layout…

METS ALTO OLR GT Textes Presse Europeana Newspapers