Logo BnF

API et jeux de données

fr
  • Accueil
    • Catalogue général de la BnF
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Mandragore
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Texte Des Documents De Presse Du Projet Europeana Newspapers (XIXe XXe Siècles)
JSON OCR Textes Presse Europeana Newspapers

Texte des documents de presse du projet Europeana Newspapers (XIXe-XXe siècles)


Présentation

Ce jeu de données contient le texte des collections de presse traitées durant le projet européen Europeana Newpapers.

Contenu du jeu de données

Ce jeu contient la transcription réalisée par OCR du texte d’environ 2 millions de pages des collections de presse de Gallica. Le format utilisé est JSON.

L’intégralité des documents numérisés dans Gallica des titres suivants sont présents :

  • L’Action française : http://gallica.bnf.fr/ark:/12148/cb326819451/date
  • Le Constitutionnel : http://gallica.bnf.fr/ark:/12148/cb32747578p/date
  • La Croix : http://gallica.bnf.fr/ark:/12148/cb343631418/date
  • L’Echo de Paris : http://gallica.bnf.fr/ark:/12148/cb34429768r/date
  • Le Figaro : http://gallica.bnf.fr/ark:/12148/cb34355551z/date
  • Le Gaulois : http://gallica.bnf.fr/ark:/12148/cb32779904b/date
  • L’Humanité : http://gallica.bnf.fr/ark:/12148/cb327877302/date
  • L’Intransigeant : http://gallica.bnf.fr/ark:/12148/cb32793876w/date
  • Le Journal des débats politiques et littéraires : http://gallica.bnf.fr/ark:/12148/cb39294634r/date
  • Le Matin : http://gallica.bnf.fr/ark:/12148/cb328123058/date
  • Ouest Eclair (éditions de Caen, Nantes, Rennes) :
    • http://gallica.bnf.fr/ark:/12148/cb41193642z/date
    • http://gallica.bnf.fr/ark:/12148/cb41193663x/date
    • http://gallica.bnf.fr/ark:/12148/cb32830550k/date
  • Le Petit Journal : http://gallica.bnf.fr/ark:/12148/cb32895690j/date
  • Le Petit Journal illustré supplément du dimanche : http://gallica.bnf.fr/ark:/12148/cb32836564q/date
  • Le Petit Parisien : http://gallica.bnf.fr/ark:/12148/cb34419111x/date
  • La Presse : http://gallica.bnf.fr/ark:/12148/cb34448033b/date
  • Le Siècle : http://gallica.bnf.fr/ark:/12148/cb32868136g/date
  • Le Temps : http://gallica.bnf.fr/ark:/12148/cb34431794k/date
  • L’Univers : http://gallica.bnf.fr/ark:/12148/cb34520232c/date

Il est organisé par titre de presse, par année et par date de publication (un fichier JSON par fascicule). Exemple pour le journal du 15 juin 1884 :

le_petit_journal_illustre_supplement_du_dimanche.zip/1884/18840615/18840615.metadata.fulltext.json

 

Contexte de production

Ce corpus a été produit durant le projet de recherche européen Europeana Newspapers (2012-2015).

Liens de présentation du projet :

  • http://www.europeana-newspapers.eu/
  • http://www.bnf.fr/fr/professionnels/projets_europeens/s.projets_europeens_termines.html?first_Art=non#SHDC__Attribute_BlocArticle1BnF

Formats

Chaque fichier JSON contient des métadonnées informant du titre, de la date de publication et de l’identifiant ARK du document dans Gallica :

{
	"title": [
		"Le Petit Journal illustré Supplément du dimanche"
	],
	"source": [
		"Bibliothèque nationale de France",
		"http://gallica.bnf.fr/ark:/12148/bpt6k7155522",
		"Metadata aggregated by The European Library",
		"Metadata provided by National Library of France "
	],
	"description": [
		"1884/06/15 (Numéro 1)."
	],

Les contenus textuels sont stockés dans le champ contentAsText. Les fins de paragraphe sont codées avec le caractère \n. Les éventuels tirets de césure en fin de ligne ont été supprimés.

D’autres métadonnées sont également disponibles :

  • Identifiant ARK de la notice du titre de presse dans le catalogue BnF :
"relation": [
"http://data.theeuropeanlibrary.org/Collection/a0599",
"Notice du catalogue : http://catalogue.bnf.fr/ark:/12148/cb32836564q", …
  • Identifiant du document dans la bibliothèque numérique européenne TEL :
"identifier": [ "http://data.theeuropeanlibrary.org/BibliographicResource/3000117762175",
"http://www.theeuropeanlibrary.org/tel4/newspapers/issue/3000117762175",
"http://www.theeuropeanlibrary.org/tel4/newspapers/issue/fullscreen/3000117762175",...]
  • Taux OCR estimé (en % de mots corrects) :
"format": [
"[OCR confidence] 0,806267"]

 

Exemples d’utilisation

  • https://scoms.hypotheses.org/657
  • https://scoms.hypotheses.org/799
  • https://numapresse.hypotheses.org/

API et jeux de données en relation

API

Les liens Gallica contenus dans le champ source permettent de faire afficher les documents dans Gallica (grâce à l’identifant ARK). L’API Gallica Date fait de même à partir de la date d’un fascicule de presse. Elle opère avec comme entrée l’identifiant de la notice catalogue du titre de presse (les identifiants cb… donnés plus haut) et une date de publication au format YYYMMDD.

http://gallica.bnf.fr/ark:/12148/ID_notice/date+%Y+%M+%D

Exemple : http://gallica.bnf.fr/ark:/12148/cb32836564q/date18840615

L’API Gallica IIIF permet d’obtenir les images des documents numériques à partir de leur identifiant ARK :

http://gallica.bnf.fr/iiif/ark:/12148/bpt6k7155522/f1/full/full/0/native.jpg

L’API Gallica OCR permet d’obtenir les fichiers OCR des documents numériques à partir de leur identifiant ARK :

http://gallica.bnf.fr/RequestDigitalElement?O=bpt6k5773155v&E=ALTO&Deb=1

Jeux de données

Les jeux de données issus du même projet Europeana Newspapers sont listés dans la rubrique Ressources.

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • L'Action française (955 Mo)
  • L'Echo de Paris (1,7 Go)
  • La Presse
  • Le Constitutionnel (1,8 Go)
  • L'Humanité (920 Mo)
  • L'Intransigeant (1,8 Go)
  • L'Univers (1 Go)
  • La Croix (1,2 Go)
  • Le Figaro (2,1 Go)
  • Le Gaulois (1,5 Go)
  • Le Journal des débats politiques et littéraires (2,8 Go)
  • Le Matin (1,8 Go)
  • Le Petit Journal (1,9 Go)
  • Le Petit Journal illustré - Supplément du dimanche (83 Mo)
  • Le Petit Parisien (1,8 Go)
  • Le Siècle (2,1 Go)
  • Le Temps (2,4 Go)
  • Ouest-Eclair - édition de Caen (1,1 Go)
  • Ouest-Eclair - édition de Nantes (1 Go)
  • Ouest-Eclair - édition de Rennes (1,6 Go)
Fiche Technique
Date de mise en ligne

2015

Format

JSON

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OCR

Sujets

Textes Presse Europeana Newspapers

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Texte de presse annoté en entités nommées du projet Europeana Newspapers

Ce jeu de données est constitué de textes extraits de documents des collections de presse traitées durant le projet européen Europeana Newspapers et annotés en terme d’entités nommées de type Perso

Texte NLP GT Textes Presse Europeana Newspapers
Documents de presse numérisés en mode « article » du projet Europeana Newspapers

Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance de la mise en page (OLR, optical lay

METS ALTO OLR GT Textes Presse Europeana Newspapers
Documents de presse numérisés en mode « OCR » du projet Europeana Newspapers

Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance du texte (OCR, optical character rec

METS ALTO OCR Textes Presse Europeana Newspapers
Métadonnées quantitatives de la presse ancienne (XIXe-XXe siècles)

Ce jeu de données contient des métadonnées quantitatives relatives aux contenus de la collection de presse traitée durant le projet européen Europeana Newspapers.  

XML JSON CSV OCR OLR Presse
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube