Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • Catalogue général de la BnF
    • data.bnf.fr
    • Dépôt légal du Web
    • Répertoire du Catalogue collectif de France (CCFr)
    • Mandragore
    • Catalogue général des manuscrits (CGM / CCFr)
    • Base Patrimoine (CCFr)
    • Répertoire des manuscrits littéraires français du XXème siècle (Palme)
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Documents De Presse Numérisés En Mode « Article » Du Projet Europeana Newspapers
METS ALTO Reconnaissance automatique de la mise en page (OLR) Textes Presse Europeana Newspapers

Documents de presse numérisés en mode « article » du projet Europeana Newspapers


Présentation

Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance de la mise en page (OLR, optical layout recognition). Cette reconnaissance conduit à une description fine des contenus de chaque fascicule (article, section, titre d’article, légende de figure, etc.) ainsi qu’à l’identification des publicités et tableaux.

 

olr

Contenu du jeu de données

Ce jeu contient la transcription réalisée par OCR et OLR d’environ 147 000 fascicules des collections de presse de Gallica traitées durant le projet Europeana Newspapers.

Tous les documents numérisés des titres suivants sont présents dans ce jeu de données :

  • Le Gaulois : http://gallica.bnf.fr/ark:/12148/cb32779904b/date
  • Le Journal des débats politiques et littéraires : http://gallica.bnf.fr/ark:/12148/cb39294634r/date
  • Le Matin : http://gallica.bnf.fr/ark:/12148/cb328123058/date
  • Ouest Eclair (éditions de Caen, Rennes) :
    • http://gallica.bnf.fr/ark:/12148/cb41193642z/date
    • http://gallica.bnf.fr/ark:/12148/cb32830550k/date
  • Le Petit Journal illustré supplément du dimanche : http://gallica.bnf.fr/ark:/12148/cb32836564q/date
  • Le Petit Parisien : http://gallica.bnf.fr/ark:/12148/cb34419111x/date

Le jeu est organisé par titre de presse, par année et par date de publication (un dossier par fascicule). Exemple pour le Petit Journal illustré du 2 janvier 1910 :

PJI
  19100102_1
     19100102_1-METS.xml
     ALTO
        19100102_1-0001.xml
        …
        19100102_1-0008.xml

Le jeu de données contient également les identifiants numériques Gallica correspondant (au format ARK) sous la forme d’un tableau mettant en relation titre de journal, date et identifiant ARK Gallica (voir archive ZIP "Métadonnées"). Il est également possible de déduire cet identifiant en utilisant une API Gallica (voir ci-après).

Contexte de production

Ce corpus a été produit durant le projet de recherche européen Europeana Newspapers (2012-2015).

Liens de présentation du projet :

  • http://www.europeana-newspapers.eu/
  • http://www.bnf.fr/fr/professionnels/projets_europeens/s.projets_europeens_termines.html?first_Art=non#SHDC__Attribute_BlocArticle1BnF

Formats du jeu de données

Ce jeu de données utilise deux formats documentaires :

  • METS : description du document numérique et de sa structure logique (OLR) au format METS XML. Des éléments d’information sont disponibles ici : http://bibnum.bnf.fr/mets/ (Note : les profils METS du jeu et celui de la BnF sont voisins mais différents). La structure logique des fascicules de presse est décrite dans l’élément XML suivant :
 <mets:structMap LABEL="Logical Structure" TYPE="LOGICAL">
  • ALTO : description de la couche texte océrisée au format XML ALTO CCS version 1.4. Voir http://www.loc.gov/standards/alto/  et http://www.bnf.fr/fr/professionnels/numerisation_boite_outils/a.num_conversion_mode_texte.html

Exemples d’utilisation

  • https://numapresse.hypotheses.org/
  • http://altomator.github.io/EN-data_mining/

API et jeux de données en relation

API

L’API Gallica « Date » permet d’afficher un fascicule de presse dans Gallica à partir de sa date de publication. Elle opère avec comme entrée l’identifiant de la notice catalogue du titre de presse (les identifiants cb… décrits ci-avant) et une date de publication au format YYYMMDD.

http://gallica.bnf.fr/ark:/12148/ID_notice/date+%Y+%M+%D

Exemple : http://gallica.bnf.fr/ark:/12148/cb32836564q/date18840615

L’API Gallica IIIF permet d’obtenir les images des documents numériques à partir de leur identifiant ARK :

http://gallica.bnf.fr/iiif/ark:/12148/bpt6k7155522/f1/full/full/0/native.jpg

Jeux de données

Un autre jeu de données OLR est disponible.

Les jeux de données suivants sont issus du même projet Europeana Newspapers :

  • Entités nommées : un corpus de vérité terrain de 210 000 mots dans lequel les entités nommées de type Personne, Lieu et Organisation sont identifiées et catégorisées.
  • Corpus texte : le texte des collections de presse traitées durant le projet européen Europeana Newspapers.
  • Corpus OCR : l'OCR des collections de presse traitées durant le projet européen Europeana Newspapers.
  • Métadonnées quantitatives de la presse ancienne : un jeu de métadonnées quantitatives (nombre de pages, mots, articles, illustrations, etc.) extraites des 800 000 pages du corpus OLR du projet Europeana Newspapers.
Télécharger
  • Le Journal des débats politiques et littéraires (36 Go)
  • Le Matin (22 Go)
  • Le Petit Parisien (21 Go)
  • Le Petit Journal Illustré (1 Go)
  • Ouest-Eclair - édition de Rennes (13 Go)
  • Métadonnées (4 Mo)
  • Ouest-Eclair - édition de Caen (13 Go)
  • Le Gaulois 1860 (328 Mo)
  • Le Gaulois 1870 (2,4 Go)
  • Le Gaulois 1880 (2,5 Go)
  • Le Gaulois 1890 (3,1 Go)
  • Le Gaulois 1900 (3,6 Go)
  • Le Gaulois 1910 (3 Go)
  • Le Gaulois 1920 (3 Go)
Fiche Technique
Date de mise en ligne

2015

Format

METS ALTO

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

Reconnaissance automatique de la mise en page (OLR)

Sujets

Textes Presse Europeana Newspapers

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité
  • DCAT
twitter facebook instagram youtube