Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Documents De Presse Numérisés En Mode « Article » Du Projet Europeana Newspapers
METS ALTO OLR GT Textes Presse Europeana Newspapers

Documents de presse numérisés en mode « article » du projet Europeana Newspapers


Présentation

Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance de la mise en page (OLR, optical layout recognition). Cette reconnaissance conduit à une description fine des contenus de chaque fascicule (article, section, titre d’article, légende de figure, etc.) ainsi qu’à l’identification des publicités et tableaux.

olr

Contenu du jeu de données

Ce jeu contient la transcription réalisée par OCR et OLR d’environ 147 000 fascicules (790 000 pages) des collections de presse de Gallica traitées durant le projet Europeana Newspapers.

Tous les documents numérisés des titres suivants sont présents dans ce jeu de données :

  • Le Gaulois : http://gallica.bnf.fr/ark:/12148/cb32779904b/date
  • Le Journal des débats politiques et littéraires : http://gallica.bnf.fr/ark:/12148/cb39294634r/date
  • Le Matin : http://gallica.bnf.fr/ark:/12148/cb328123058/date
  • Ouest Eclair (éditions de Caen, Rennes) :
    • http://gallica.bnf.fr/ark:/12148/cb41193642z/date
    • http://gallica.bnf.fr/ark:/12148/cb32830550k/date
  • Le Petit Journal illustré supplément du dimanche : http://gallica.bnf.fr/ark:/12148/cb32836564q/date
  • Le Petit Parisien : http://gallica.bnf.fr/ark:/12148/cb34419111x/date

Le jeu est organisé par titre de presse, par année et par date de publication (un dossier par fascicule). Exemple pour le Petit Journal illustré du 2 janvier 1910 :

PJI
  19100102_1
     19100102_1-METS.xml
     ALTO
        19100102_1-0001.xml
        …
        19100102_1-0008.xml

Le jeu de données contient également les identifiants numériques Gallica correspondant (au format ARK) sous la forme d’un tableau mettant en relation titre de journal, date et identifiant ARK Gallica (voir archive ZIP "Métadonnées"). Il est également possible de déduire cet identifiant en utilisant une API Gallica (voir ci-après).

Contexte de production

Ce corpus a été produit durant le projet de recherche européen Europeana Newspapers (2012-2015).

Liens de présentation du projet :

  • http://www.europeana-newspapers.eu/
  • http://www.bnf.fr/fr/professionnels/projets_europeens/s.projets_europeens_termines.html?first_Art=non#SHDC__Attribute_BlocArticle1BnF

Formats du jeu de données

Ce jeu de données utilise deux formats documentaires :

  • METS : description du document numérique et de sa structure logique (OLR) au format METS XML. Des éléments d’information sont disponibles ici : http://bibnum.bnf.fr/mets/ (Note : les profils METS du jeu et celui de la BnF sont voisins mais différents). La structure logique des fascicules de presse est décrite dans l’élément XML suivant :
 <mets:structMap LABEL="Logical Structure" TYPE="LOGICAL">
  • ALTO : description de la couche texte océrisée au format XML ALTO CCS version 1.4. Voir http://www.loc.gov/standards/alto/  et http://www.bnf.fr/fr/professionnels/numerisation_boite_outils/a.num_conversion_mode_texte.html

Exemples d’utilisation

Ce jeu a été utilisé comme source de documents ou vérité terrain par plusieurs projets :

  • https://numapresse.hypotheses.org/
  • http://altomator.github.io/EN-data_mining/

Dans le cas d'un usage en tant que vérité terrain, il faut noter que la structuration et la classification ont été réalisées semi-automatiquement, contrôlées pour partie mais non vérifiées en totalité.

API et jeux de données en relation

API

L’API Gallica « Date » permet d’afficher un fascicule de presse dans Gallica à partir de sa date de publication. Elle opère avec comme entrée l’identifiant de la notice catalogue du titre de presse (les identifiants cb… décrits ci-avant) et une date de publication au format YYYMMDD.

http://gallica.bnf.fr/ark:/12148/ID_notice/date+%Y+%M+%D

Exemple : http://gallica.bnf.fr/ark:/12148/cb32836564q/date18840615

L’API Gallica IIIF permet d’obtenir les images des documents numériques à partir de leur identifiant ARK :

http://gallica.bnf.fr/iiif/ark:/12148/bpt6k7155522/f1/full/full/0/native.jpg

Jeux de données

Un autre jeu de données OLR est disponible.

Les autres jeux de données issus du même projet Europeana Newspapers sont listés dans la rubrique Ressources.

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • Fichiers ALTO et METS (200 Go)
  • Métadonnées (Excel, 4 Mo)
Fiche Technique
Date de mise en ligne

2015

Format

METS ALTO

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OLR GT

Sujets

Textes Presse Europeana Newspapers

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Documents de presse numérisés en mode « OCR » du projet Europeana Newspapers

Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance du texte (OCR, optical character rec

METS ALTO OCR Textes Presse Europeana Newspapers Documents
Documents de presse en mode texte du projet Europeana Newspapers (XIXe-XXe siècles)

Ce jeu de données contient le texte des collections de presse traitées durant le projet européen Europeana Newpapers.

JSON OCR Textes Presse Europeana Newspapers Documents
Texte de presse annoté en entités nommées

Ces jeu de données sont constitués de textes extraits de documents des collections de presse traitées durant les projets européens Europeana Newspapers et NewsEye et dont les d’entités nommées ont

Texte NLP GT Textes Presse Europeana Newspapers Documents
Gallica : métadonnées quantitatives de la presse ancienne (XIXe-XXe siècles)

Ce jeu de données contient des métadonnées quantitatives relatives aux contenus de la collection de presse traitée durant le projet européen Europeana Newspapers.  

XML JSON CSV OCR OLR Presse
Documents de presse numérisés en mode « article »

Ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition).

METS ALTO OLR GT OCR Textes Presse Documents
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube