Logo BnF

API et jeux de données

fr
  • Accueil
    • Catalogue général de la BnF
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Mandragore
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Documents De Presse Numérisés En Mode « Article »
METS ALTO OLR GT Textes

Documents de presse numérisés en mode « article »


Présentation

Ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition). Cette reconnaissance conduit à une description fine des contenus de chaque fascicule (article, section, titre d’article, légende de figure, etc.) ainsi qu’à l’identification des publicités et tableaux.

 

en-olr-1_1

Contenu du jeu de données

Ce jeu contient la transcription réalisée par OCR et OLR des documents numérisés de plusieurs titres des collections de la BnF. Selon les titres, le jeu contient soit la totalité des fascicules numérisés du titre, soit une sous-partie restreinte à une période donnée. Les titres sont les suivants  :

  • L'Excelsior (1910-1920), 3 407 fascicules : http://gallica.bnf.fr/ark:/12148/cb32771891w/date
  • L'Œuvre (1915-1944), 10 383 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb34429265b/date
  • Marie-Claire (1937-1944), 311 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb343488519/date
  • La Fronde (1897-1929), 2 269 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb327788500/date

D'autres titres sont disponibles sur demande (cf. liste en téléchargement).

Contexte de production

Ce corpus est constitué d'une sélection des titres traités par le programme de numérisation OLR de la presse de la BnF.

Formats du jeu de données

Le jeu est organisé par titre de presse et par fascicule (un ZIP par fascicule, nommé d'après l'identifiant numérique du document). Exemple pour L'Œuvre du 2 janvier 1926 :

L_Oeuvre
  4612795
     manifest.xml
     ocr
        X0000001.xml
        …
        X0000006.xml
     toc
        T4612795.xml

Le jeu de données contient les identifiants numériques Gallica correspondant (au format ARK) : 

4612795 -> ark:/12148/bpt6k46127951

Il est également possible de déduire cet identifiant en utilisant une API Gallica (voir ci-après). Quant aux images associées aux documents du jeu, elles sont accessibles grâce à l'API IIIF (voir ci-après).

Ce jeu de données utilise deux formats documentaires :

  • METS : description du document numérique et de sa structure logique (OLR) au format METS XML. Le modèle de données est décrit ici http://bibnum.bnf.fr/mets/, section "Profil de fichier de table de structure OLR". La structure logique des fascicules de presse est décrite dans l’élément XML suivant :
 <mets:structMap LABEL="Logical Structure" TYPE="LOGICAL">
  • ALTO : description de la couche texte océrisée au format XML ALTO CCS version 1.4. Voir http://www.loc.gov/standards/alto/  ethttp://www.bnf.fr/fr/professionnels/numerisation_boite_outils/a.num_conversion_mode_texte.htm

Exemples d’utilisation

Ce jeu a été utilisé comme source de documents ou vérité terrain par plusieurs projets :

  • https://numapresse.hypotheses.org/
  • https://www.newseye.eu/
  • http://altomator.github.io/EN-data_mining/
  • https://github.com/altomator/Image_Retrieval

Dans le cas d'un usage en tant que vérité terrain, il faut noter que la structuration et la classification ont été réalisées manuellement mais non vérifiées.

API et jeux de données en relation

Voir cet autre jeu de données OLR.

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • L'Excelsior (métadonnées)
  • L'Excelsior (2,6 Go)
  • Marie-Claire (200 Mo)
  • Marie-Claire (métadonnées)
  • La Fronde 1 (807 Mo)
  • La Fronde 2 (779 Mo)
  • La Fronde (métadonnées)
  • L'Œuvre (métadonnées)
  • L'Œuvre 1 (735 Mo)
  • L'Œuvre 2 (732 Mo)
  • L'Œuvre 3 (736 Mo)
  • L'Œuvre 4 (735 Mo)
  • L'Œuvre 5 (742 Mo)
  • L'Œuvre 6 (742 Mo)
  • L'Œuvre 7 (723 Mo)
  • L'Œuvre 8 (740 Mo)
  • L'Œuvre 9 (759 Mo)
  • L'Œuvre 10 (1 Go)
  • Liste des titres (Excel)
Fiche Technique
Date de mise en ligne

2019

Format

METS ALTO

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OLR GT

Sujets

Textes

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Documents de presse numérisés en mode « article » du projet Europeana Newspapers

Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance de la mise en page (OLR, optical lay

METS ALTO OLR GT Textes Presse Europeana Newspapers
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube