Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Gallica : Feuilletons Littéraires Dans La Presse
CSV JSON Texte XML OLR OCR Presse Documents

Gallica : feuilletons littéraires dans la presse


Présentation

Ce jeu de données regroupe des romans-feuilletons parus dans la presse française du XIXe siècle. Il inclut à la fois le texte des feuilletons ainsi que les métadonnées associées (titre de presse et date de parution, titre du feuilleton, auteur, identifiant du document Gallica, emplacement dans le fascicule, etc.).

roman feuilleton

 

Contenu du jeu de données

Le jeu propose les feuilletons parus dans plusieurs titres de presse nationale ou régionale numérisés dans Gallica.

Titre Numéros Calendrier Nombre de numéros contenant au moins un feuilleton
L’Auto (Paris, 1900) 16 346 https://gallica.bnf.fr/ark:/12148/cb327071375/date 2 872
La Démocratie pacifique 2 262 https://gallica.bnf.fr/ark:/12148/cb32755585p/date 1 577
La Dépêche (Toulouse) 24 312 https://gallica.bnf.fr/ark:/12148/cb327558876/date 22 483
La France (Paris. 1862) 2 897 https://gallica.bnf.fr/ark:/12148/cb327773077/date 2 707
La Liberté (Paris. 1865) 26 044 https://gallica.bnf.fr/ark:/12148/cb328066631/date 19 676
La Petite Presse 14 457 https://gallica.bnf.fr/ark:/12148/cb32837965d/date 11 455
Le Courrier (Paris. 1819) 9 595 https://gallica.bnf.fr/ark:/12148/cb32749956z/date 958
Le Cri du Peuple 2 508 https://gallica.bnf.fr/ark:/12148/cb32752488q/date 1 988
Le Grand écho du Nord de la France 15 274 https://gallica.bnf.fr/ark:/12148/cb32783482h/date 15 227
Le Pays (Paris. 1849) 20 517 https://gallica.bnf.fr/ark:/12148/cb328343740/date 16 817

Contexte de production

Ce jeu a été produit à l’occasion du travail scientifique de Morgane Avellaneda, chargée de recherche documentaire (BnF/université de Saint-Étienne). Dans le cadre de sa thèse, une sélection Gallica consacrée aux feuilletons dans la presse a été mise en ligne, dont une présentation est donnée sur le blog Gallica. Une journée d’étude a été consacrée à ce sujet en avril 2021.

Le jeu de données s’appuie sur des programmes de numérisation de la presse ayant appliqué une reconnaissance de la mise en page (OLR, optical layout recognition ; voir à ce sujet les jeux de données OLR référencés ci-contre pour une plus ample description de cette technique). Cette reconnaissance conduit à une description fine des contenus de chaque fascicule (article, section, titre d’article, etc.) ainsi qu’à l’identification des publicités et feuilletons.

Format du jeu de données

Le jeu est décrit par des métadonnées exprimées selon des formalismes CSV et JSON. Il contient également les métadonnées OLR de numérisation (format XML METS décrivant la structure logique d’un numéro).

Exports par titre de journal

Chaque titre de journal présent dans le jeu de données est proposé sous la forme d’une archive .zip nommée d’après l’ark catalogue du titre (cf. tableau ci-dessus).

Un fichier .csv par titre de journal est inclus. Il est nommé selon le titre catalogue normalisé du journal suivi de son identifiant catalogue ark. Il contient pour chaque numéro du journal numérisé dans Gallica (identifié par son ark Gallica) le nombre de feuilletons présents dans le numéro.

L’archive contient enfin la description des numéros concernés (zippés et nommés d’après leur identifiant numérique Gallica).

Par exemple, "cb327071375.zip" contient :

  • 4622996.zip
  • 4623023.zip
  • 4623025.zip
  • ...
  • LAuto(paris1900)_cb327071375.csv

La description de chaque numéro est établie selon les modalités suivantes.

Exports par numéro

Pour chaque numéro et pour chaque feuilleton publié dans un numéro donné, les éléments suivants sont fournis.

Texte

Le texte de chaque feuilleton publié dans le numéro est fourni dans un fichier .txt. Ces fichiers sont nommés selon l’identifiant ark du numéro, suivi de l’identifiant du feuilleton dans le fichier de structure METS (dmdSec), du titre du feuilleton (25 caractères normalisés, ou "no-title" en cas d'absence de titre) puis de la date de publication.

Exemple : "4626934_DMD181_FEUILLETON-DU-21-AVRIL-19_1905-04-21.txt".

Un tel fichier contient donc le texte du feuilleton paru pour une date donnée ; il est organisé en paragraphes.

Pour reconstruire le texte d’un feuilleton complet, il convient de s’appuyer sur l’identifiant du feuilleton et ses dates de publication successives.

Blocs OCR

Les informations concernant les blocs de texte OCR d’un feuilleton sont fournies dans des fichiers .csv nommés selon l’identifiant ark du numéro, suivi de l’identifiant du feuilleton dans le fichier de structure METS (dmdSec) et de la mention "_text_blocks_info".

Exemple : "4626934_DMD181_text_blocks_info.csv".

Entêtes du .csv :

  • TEXTBLOCK ID : identifiant du bloc dans le fichier ALTO. L’identifiant inclut également le numéro de la page concernée
  • HPOS, VPOS, HEIGHT, WIDTH : coordonnées du bloc dans la page
  • STRINGS : nombre de chaînes de caractères
  • SPACES : nombre d’espaces
  • HYPHENS : nombre de césures
  • AVERAGE WORD CONFIDENCE : taux qualité estimé du texte
  • FONT SIZE, FONT FAMILY : informations typographiques (si disponibles)

Métadonnées bibliographiques du numéro

Pour chaque numéro, ses métadonnées bibliographiques (titre, date de parution, éditeur, etc.) sont fournies dans un fichier .csv nommé selon l’identifiant ark du numéro, suivi de la mention "_metadata". La dernière ligne du fichier fournit le nombre de feuilletons publiés dans le numéro.

Exemple : "4626934_metadata.csv".

Métadonnées documentaires des feuilletons

Les métadonnées documentaires de chaque feuilleton (titre, auteur, éventuel illustrateur) sont fournies dans un fichier .json nommé selon l’identifiant ark du numéro, suivi de l’identifiant du feuilleton dans le fichier de structure METS (dmdSec) et de la mention "_novel_metadata".

Exemple : "4626934_DMD182_novel_metadata.json".

Lors de l'écriture du ".json" :

  • tout caractère « " » présent dans les textes des balises xml parsées est remplacé par « \" » ;
  • tout caractère « \ » présent dans les textes des balises xml parsées est remplacé par « \\ » ;
  • tout caractère présentant un signe diacritique est remplacé par son code Unicode.

Exemple :
[illisible]EU""GÈNE \C HAV E\12euÙN L :t \-"-1' .i ,e.
devient :
[illisible]EU\"\"G\u00c8NE \\C HAV E\\12eu\u00d9N L :t \\-\"-1' .i ,e.

Fichier de structure METS

Le fichier natif METS (format XML) est également fourni.

API et jeux de données en relation

L’API IIIF peut être utilisée pour extraire les portions d’image concernées par les feuilletons identifiés dans le jeu. 

D’autres jeux de données proposent des titres de presse numérisés en mode article (voir ci-contre).

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • Fichiers CSV, JSON, TXT et METS (37 Go)
Fiche Technique
Format

CSV JSON Texte XML

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OLR OCR

Sujets

Presse Documents

Contact
gallica@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Documents de presse numérisés en mode « article »

Ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition).

METS ALTO OLR GT OCR Textes Presse Documents
Documents de presse numérisés en mode « article » du projet Europeana Newspapers

Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance de la mise en page (OLR, optical lay

METS ALTO OLR GT Textes Presse Europeana Newspapers
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube