Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Documents De Presse Numérisés En Mode « Article »
METS ALTO OLR GT OCR Textes Presse Documents

Documents de presse numérisés en mode « article »


Présentation

Ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition). Cette reconnaissance conduit à une description fine des contenus de chaque fascicule (article, section, titre d’article, légende de figure, etc.) ainsi qu’à l’identification des publicités et tableaux.

 

en-olr-1_1

Contenu du jeu de données

Ce jeu contient la transcription réalisée par OCR et OLR des documents numérisés de plusieurs titres des collections de la BnF. Selon les titres, le jeu contient soit la totalité des fascicules numérisés du titre, soit une sous-partie restreinte à une période donnée. Les titres sont les suivants  :

  • L'Excelsior (1910-1920), 3 407 fascicules : http://gallica.bnf.fr/ark:/12148/cb32771891w/date
  • L'Œuvre (1915-1944), 10 383 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb34429265b/date
  • Marie-Claire (1937-1944), 311 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb343488519/date
  • La Fronde (1897-1929), 2 269 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb327788500/date

D'autres titres sont disponibles sur demande (cf. liste en téléchargement).

Contexte de production

Ce corpus est constitué d'une sélection des titres traités par le programme de numérisation OLR de la presse de la BnF.

Formats du jeu de données

Le jeu est organisé par titre de presse et par fascicule (un ZIP par fascicule, nommé d'après l'identifiant numérique du document). Exemple pour L'Œuvre du 2 janvier 1926 :

L_Oeuvre
  4612795
     manifest.xml
     ocr
        X0000001.xml
        …
        X0000006.xml
     toc
        T4612795.xml

Le jeu de données contient les identifiants numériques Gallica correspondant (au format ARK) : 

4612795 -> ark:/12148/bpt6k46127951

Il est également possible de déduire cet identifiant en utilisant une API Gallica (voir ci-après). Quant aux images associées aux documents du jeu, elles sont accessibles grâce à l'API IIIF (voir ci-après).

Ce jeu de données utilise deux formats documentaires :

  • METS : description du document numérique et de sa structure logique (OLR) au format METS XML. Le modèle de données est décrit ici http://bibnum.bnf.fr/mets/, section "Profil de fichier de table de structure OLR". La structure logique des fascicules de presse est décrite dans l’élément XML suivant :
 <mets:structMap LABEL="Logical Structure" TYPE="LOGICAL">
  • ALTO : description de la couche texte océrisée au format XML ALTO CCS version 1.4. Voir http://www.loc.gov/standards/alto/  ethttp://www.bnf.fr/fr/professionnels/numerisation_boite_outils/a.num_conversion_mode_texte.htm

Exemples d’utilisation

Ce jeu a été utilisé comme source de documents ou vérité terrain par plusieurs projets :

  • https://numapresse.hypotheses.org/
  • https://www.newseye.eu/
  • http://altomator.github.io/EN-data_mining/
  • https://github.com/altomator/Image_Retrieval

Dans le cas d'un usage en tant que vérité terrain, il faut noter que la structuration et la classification ont été réalisées manuellement mais non vérifiées.

Télécharger
  • Métadonnées et fichiers XML (26 Go)
Fiche Technique
Date de mise en ligne

2019

Format

METS ALTO

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OLR GT OCR

Sujets

Textes Presse Documents

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Documents de presse numérisés en mode « article » du projet Europeana Newspapers

Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance de la mise en page (OLR, optical lay

METS ALTO OLR GT Textes Presse Europeana Newspapers
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube