Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Documents De Presse Numérisés En Mode « OCR » Du Projet Europeana Newspapers
METS ALTO OCR Textes Presse Europeana Newspapers Documents

Documents de presse numérisés en mode « OCR » du projet Europeana Newspapers


Présentation

Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance du texte (OCR, optical character recognition). 

Contenu du jeu de données

Ce jeu contient la transcription réalisée par OCR d’environ 275 000 fascicules des collections de presse de Gallica traitées durant le projet Europeana Newspapers.

Tous les documents numérisés des titres suivants sont présents :

  • Le Figaro
  • L'Echo de Paris
  • L'Univers
  • La Presse
  • L'Humanité
  • Le Constitutionnel
  • Le Petit Journal
  • Le Siècle
  • L'Action Française
  • L'Intransigeant 
  • Le Temps
  • La Croix
     

Le jeu est organisé par titre de presse, par année et par date de publication (un dossier par fascicule). Exemple pour le La Presse du 1er janvier 1910 :

La Presse
  BnF_00028_19100101
     BnF_00028_19100101_mets.xml
     alto
        00000001.xml
        …
        00000004.xml

Le jeu de données contient également les identifiants numériques Gallica correspondant (au format ARK) sous la forme d’un tableau mettant en relation titre de journal, date et identifiant ARK Gallica (voir archive ZIP). Il est également possible de déduire cet identifiant en utilisant une API Gallica (voir ci-après).

Contexte de production

Ce corpus a été produit durant le projet de recherche européen Europeana Newspapers (2012-2015).

Liens de présentation du projet :

  • http://www.europeana-newspapers.eu/
  • http://www.bnf.fr/fr/professionnels/projets_europeens/s.projets_europeens_termines.html?first_Art=non#SHDC__Attribute_BlocArticle1BnF

Formats du jeu de données

Ce jeu de données utilise deux formats documentaires :

  • METS : description du document numérique au format METS XML. Des éléments d’information sont disponibles ici : http://bibnum.bnf.fr/mets/ (Note : les profils METS du jeu et celui de la BnF sont voisins mais différents).
  • ALTO : description de la couche texte océrisée au format XML ALTO version 2.0. Voir http://www.loc.gov/standards/alto/  et http://www.bnf.fr/fr/professionnels/numerisation_boite_outils/a.num_conversion_mode_texte.html

Exemples d’utilisation

  • https://numapresse.hypotheses.org/
  • http://altomator.github.io/EN-data_mining/
  • http://altomator.github.io/EN-Image_Retrieval/

API et jeux de données en relation

API

L’API Gallica « Date » permet d’afficher un fascicule de presse dans Gallica à partir de sa date de publication. Elle opère avec comme entrée l’identifiant de la notice catalogue du titre de presse (les identifiants cb… décrits ci-avant) et une date de publication au format YYYMMDD.

http://gallica.bnf.fr/ark:/12148/ID_notice/date+%Y+%M+%D

Exemple : http://gallica.bnf.fr/ark:/12148/cb32836564q/date18840615

L’API Gallica IIIF permet d’obtenir les images des documents numériques à partir de leur identifiant ARK :

http://gallica.bnf.fr/iiif/ark:/12148/bpt6k7155522/f1/full/full/0/native.jpg

Jeux de données

Les jeux de données issus du projet Europeana Newspapers sont listés dans la rubrique Ressources.

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • Métadonnées (Excel, 24 Mo)
  • Fichiers ALTO (188 Go)
Fiche Technique
Date de mise en ligne

2015

Format

METS ALTO

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OCR

Sujets

Textes Presse Europeana Newspapers Documents

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Texte de presse annoté en entités nommées

Ces jeu de données sont constitués de textes extraits de documents des collections de presse traitées durant les projets européens Europeana Newspapers et NewsEye et dont les d’entités nommées ont

Texte NLP GT Textes Presse Europeana Newspapers Documents
Documents de presse numérisés en mode « article » du projet Europeana Newspapers

Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance de la mise en page (OLR, optical lay

METS ALTO OLR GT Textes Presse Europeana Newspapers
Gallica : métadonnées quantitatives de la presse ancienne (XIXe-XXe siècles)

Ce jeu de données contient des métadonnées quantitatives relatives aux contenus de la collection de presse traitée durant le projet européen Europeana Newspapers.  

XML JSON CSV OCR OLR Presse
Documents de presse en mode texte du projet Europeana Newspapers (XIXe-XXe siècles)

Ce jeu de données contient le texte des collections de presse traitées durant le projet européen Europeana Newpapers.

JSON OCR Textes Presse Europeana Newspapers Documents
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube