Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • Catalogue général de la BnF
    • data.bnf.fr
    • Dépôt légal du Web
    • Répertoire du Catalogue collectif de France (CCFr)
    • Mandragore
    • Catalogue général des manuscrits (CGM / CCFr)
    • Base Patrimoine (CCFr)
    • Répertoire des manuscrits littéraires français du XXème siècle (Palme)
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Métadonnées Quantitatives De La Presse Ancienne (XIXe XXe Siècles)
XML JSON CSV Reconnaissance automatique des caractères (OCR) Presse

Métadonnées quantitatives de la presse ancienne (XIXe-XXe siècles)


Présentation

Ce jeu de données contient des métadonnées quantitatives relatives aux contenus de la collection de presse traitée durant le projet européen Europeana Newspapers.

 

en-md_1

Contenu du jeu de données

Sept quotidiens nationaux et régionaux (1814-1945, 880 000 pages, 150 000 fascicules) des collections de la BnF font partie du corpus traité en OLR (Optical Layout Recognition) par le projet Europeana Newspapers (EN). Le traitement OLR consiste en la description (grâce aux formats METS/ALTO) de la structure de chaque fascicule et de ses articles (emprise spatiale, titre et sous-titre, classification des types de contenu).

De chaque fascicule numérique est dérivé un jeu de métadonnées quantitatives relatives aux contenus (nombre de pages, articles, mots, illustrations, publicités, etc.).

 

en-md_2

Ces métadonnées sont extraites du manifeste METS et des fichiers OCR associés (le jeu complet des métadonnées contient environ 5 millions de valeurs atomiques). Ce jeu peut alors être interrogé pour des activités de fouille de données.

 

en-md-3_

L’intégralité des documents numérisés dans Gallica des titres suivants sont présents dans le jeu :

  • Le Gaulois : http://gallica.bnf.fr/ark:/12148/cb32779904b/date
  • Le Journal des débats politiques et littéraires : http://gallica.bnf.fr/ark:/12148/cb39294634r/date
  • Le Matin : http://gallica.bnf.fr/ark:/12148/cb328123058/date
  • Ouest Eclair (éditions de Nantes, Rennes) :
    • http://gallica.bnf.fr/ark:/12148/cb41193663x/date
    • http://gallica.bnf.fr/ark:/12148/cb32830550k/date
  • Le Petit Journal illustré supplément du dimanche : http://gallica.bnf.fr/ark:/12148/cb32836564q/date
  • Le Petit Parisien : http://gallica.bnf.fr/ark:/12148/cb34419111x/date

Il est organisé par format (XML, JSON, CSV), par titre de presse et par date de publication. La structure de données utilisée est décrite pour chaque format dans un fichier readme.txt présent dans l’archive.

Contexte de production

Ce corpus a été produit à la suite du projet européen Europeana Newspapers (2012-2015) dans le cadre d’une activité de recherche décrite ici : http://altomator.github.io/EN-data_mining/

Liens de présentation du projet Europeana Newspapers :

  • http://www.europeana-newspapers.eu/
  • http://www.bnf.fr/fr/professionnels/projets_europeens/s.projets_europeens_termines.html?first_Art=non#SHDC__Attribute_BlocArticle1BnF

Formats

Les métadonnées sont exprimées selon trois formats au choix (XML, JSON, CSV). Dans chaque archive, un fichier readme.txt décrit le formalisme utilisé.

Exemples d'utilisation

  • http://altomator.github.io/EN-data_mining/   (Jean-Philippe Moreux)
  • http://vintagedata.org/these/supplement_europeana.html  (Pierre-Carl Langlais)

API et jeux de données en relation

API

Le service web Gallica Issues permet d’obtenir les documents numériques d’un titre de presse à partir de leur date, et donc de connaître leur identifiant ARK (lesquels ne sont pas fournis dans le jeu de données). Elle opère avec comme entrée l’identifiant de la notice catalogue du titre de presse (fourni ci-avant, identifiant « cb… »). Exemple pour Le Petit Journal illustré Supplément du dimanche :

  • Lister les années d’un titre : http://gallica.bnf.fr/services/Issues?ark=cb32836564q/date
<issues compile_time="0:00:00.206" list_type="years" parent_ark="cb32836564q/date" total_issues="1899" uc3="no">
<year>1884</year>
<year>1885</year>
…
<year>1920</year>
</issues>
  • Lister les fascicules pour une année (et obtenir les identifiants ARK) : http://gallica.bnf.fr/services/Issues?ark=cb32836564q/date&date=1884
<?xml version="1.0" encoding="UTF-8"?>
<issues parent_ark="cb32836564q/date" list_type="issue" date="1884" compile_time="0:00:00.811"> 
<issue dayOfYear="167" ark="bpt6k7155522">15 juin 1884</issue> 
<issue dayOfYear="174" ark="bpt6k715553f">22 juin 1884</issue> 
<issue dayOfYear="181" ark="bpt6k715554t">29 juin 1884</issue> 
<issue dayOfYear="188" ark="bpt6k7155556">06 juillet 1884</issue> … 

A partir des identifiants ARK, il est possible d’afficher les documents :

  • http://gallica.bnf.fr/ark:/12148/bpt6k7155522
  • http://gallica.bnf.fr/ark:/12148/bpt6k7155522.thumbnail   -- vignette

Jeux de données

Les jeux de données suivants sont issus du même projet Europeana Newspapers :

  • Entités nommées : un corpus de vérité terrain de 210 000 mots dans lequel les entités nommées de type Personne, Lieu et Organisation sont identifiées et catégorisées
  • Corpus OLR : un extrait du corpus traité en OLR (Optical Layout Recognition) durant le projet Europeana Newspapers Ce traitement vise à reconnaître la mise en page des documents.
  • Corpus texte : le texte des collections de presse traitées durant le projet européen Europeana Newspapers.
Télécharger
  • CSV (4 Mo)
  • JSON (28 Mo. NB : le titre Le Petit Parisien n’est pas disponible au format JSON)
  • XML (44 Mo)
Fiche Technique
Date de mise en ligne

2016

Format

XML JSON CSV

Licence

Licence ouverte de l’état

Technologies

Reconnaissance automatique des caractères (OCR)

Sujets

Presse

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité
  • DCAT
twitter facebook instagram youtube