Gallica : feuilletons littéraires dans la presse
Présentation
Ce jeu de données regroupe des romans-feuilletons parus dans la presse française du XIXe siècle. Il inclut à la fois le texte des feuilletons ainsi que les métadonnées associées (titre de presse et date de parution, titre du feuilleton, auteur, identifiant du document Gallica, emplacement dans le fascicule, etc.).
Contenu du jeu de données
Le jeu propose les feuilletons parus dans plusieurs titres de presse nationale ou régionale numérisés dans Gallica.
Titre | Numéros | Calendrier | Nombre de numéros contenant au moins un feuilleton |
L’Auto (Paris, 1900) | 16 346 | https://gallica.bnf.fr/ark:/12148/cb327071375/date | 2 872 |
La Démocratie pacifique | 2 262 | https://gallica.bnf.fr/ark:/12148/cb32755585p/date | 1 577 |
La Dépêche (Toulouse) | 24 312 | https://gallica.bnf.fr/ark:/12148/cb327558876/date | 22 483 |
La France (Paris. 1862) | 2 897 | https://gallica.bnf.fr/ark:/12148/cb327773077/date | 2 707 |
La Liberté (Paris. 1865) | 26 044 | https://gallica.bnf.fr/ark:/12148/cb328066631/date | 19 676 |
La Petite Presse | 14 457 | https://gallica.bnf.fr/ark:/12148/cb32837965d/date | 11 455 |
Le Courrier (Paris. 1819) | 9 595 | https://gallica.bnf.fr/ark:/12148/cb32749956z/date | 958 |
Le Cri du Peuple | 2 508 | https://gallica.bnf.fr/ark:/12148/cb32752488q/date | 1 988 |
Le Grand écho du Nord de la France | 15 274 | https://gallica.bnf.fr/ark:/12148/cb32783482h/date | 15 227 |
Le Pays (Paris. 1849) | 20 517 | https://gallica.bnf.fr/ark:/12148/cb328343740/date | 16 817 |
Contexte de production
Ce jeu a été produit à l’occasion du travail scientifique de Morgane Avellaneda, chargée de recherche documentaire (BnF/université de Saint-Étienne). Dans le cadre de sa thèse, une sélection Gallica consacrée aux feuilletons dans la presse a été mise en ligne, dont une présentation est donnée sur le blog Gallica. Une journée d’étude a été consacrée à ce sujet en avril 2021.
Le jeu de données s’appuie sur des programmes de numérisation de la presse ayant appliqué une reconnaissance de la mise en page (OLR, optical layout recognition ; voir à ce sujet les jeux de données OLR référencés ci-contre pour une plus ample description de cette technique). Cette reconnaissance conduit à une description fine des contenus de chaque fascicule (article, section, titre d’article, etc.) ainsi qu’à l’identification des publicités et feuilletons.
Format du jeu de données
Le jeu est décrit par des métadonnées exprimées selon des formalismes CSV et JSON. Il contient également les métadonnées OLR de numérisation (format XML METS décrivant la structure logique d’un numéro).
Exports par titre de journal
Chaque titre de journal présent dans le jeu de données est proposé sous la forme d’une archive .zip nommée d’après l’ark catalogue du titre (cf. tableau ci-dessus).
Un fichier .csv par titre de journal est inclus. Il est nommé selon le titre catalogue normalisé du journal suivi de son identifiant catalogue ark. Il contient pour chaque numéro du journal numérisé dans Gallica (identifié par son ark Gallica) le nombre de feuilletons présents dans le numéro.
L’archive contient enfin la description des numéros concernés (zippés et nommés d’après leur identifiant numérique Gallica).
Par exemple, "cb327071375.zip" contient :
- 4622996.zip
- 4623023.zip
- 4623025.zip
- ...
- LAuto(paris1900)_cb327071375.csv
La description de chaque numéro est établie selon les modalités suivantes.
Exports par numéro
Pour chaque numéro et pour chaque feuilleton publié dans un numéro donné, les éléments suivants sont fournis.
Texte
Le texte de chaque feuilleton publié dans le numéro est fourni dans un fichier .txt. Ces fichiers sont nommés selon l’identifiant ark du numéro, suivi de l’identifiant du feuilleton dans le fichier de structure METS (dmdSec), du titre du feuilleton (25 caractères normalisés, ou "no-title" en cas d'absence de titre) puis de la date de publication.
Exemple : "4626934_DMD181_FEUILLETON-DU-21-AVRIL-19_1905-04-21.txt".
Un tel fichier contient donc le texte du feuilleton paru pour une date donnée ; il est organisé en paragraphes.
Pour reconstruire le texte d’un feuilleton complet, il convient de s’appuyer sur l’identifiant du feuilleton et ses dates de publication successives.
Blocs OCR
Les informations concernant les blocs de texte OCR d’un feuilleton sont fournies dans des fichiers .csv nommés selon l’identifiant ark du numéro, suivi de l’identifiant du feuilleton dans le fichier de structure METS (dmdSec) et de la mention "_text_blocks_info".
Exemple : "4626934_DMD181_text_blocks_info.csv".
Entêtes du .csv :
- TEXTBLOCK ID : identifiant du bloc dans le fichier ALTO. L’identifiant inclut également le numéro de la page concernée
- HPOS, VPOS, HEIGHT, WIDTH : coordonnées du bloc dans la page
- STRINGS : nombre de chaînes de caractères
- SPACES : nombre d’espaces
- HYPHENS : nombre de césures
- AVERAGE WORD CONFIDENCE : taux qualité estimé du texte
- FONT SIZE, FONT FAMILY : informations typographiques (si disponibles)
Métadonnées bibliographiques du numéro
Pour chaque numéro, ses métadonnées bibliographiques (titre, date de parution, éditeur, etc.) sont fournies dans un fichier .csv nommé selon l’identifiant ark du numéro, suivi de la mention "_metadata". La dernière ligne du fichier fournit le nombre de feuilletons publiés dans le numéro.
Exemple : "4626934_metadata.csv".
Métadonnées documentaires des feuilletons
Les métadonnées documentaires de chaque feuilleton (titre, auteur, éventuel illustrateur) sont fournies dans un fichier .json nommé selon l’identifiant ark du numéro, suivi de l’identifiant du feuilleton dans le fichier de structure METS (dmdSec) et de la mention "_novel_metadata".
Exemple : "4626934_DMD182_novel_metadata.json".
Lors de l'écriture du ".json" :
- tout caractère « " » présent dans les textes des balises xml parsées est remplacé par « \" » ;
- tout caractère « \ » présent dans les textes des balises xml parsées est remplacé par « \\ » ;
- tout caractère présentant un signe diacritique est remplacé par son code Unicode.
Exemple :
[illisible]EU""GÈNE \C HAV E\12euÙN L :t \-"-1' .i ,e.
devient :
[illisible]EU\"\"G\u00c8NE \\C HAV E\\12eu\u00d9N L :t \\-\"-1' .i ,e.
Fichier de structure METS
Le fichier natif METS (format XML) est également fourni.
API et jeux de données en relation
L’API IIIF peut être utilisée pour extraire les portions d’image concernées par les feuilletons identifiés dans le jeu.
D’autres jeux de données proposent des titres de presse numérisés en mode article (voir ci-contre).
Aide
Téléchargement des jeux de données
Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.
Télécharger
Fiche Technique
FormatCSV JSON Texte XML
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOLR OCR
SujetsPresse Documents