Documents de presse numérisés en mode « article »
Présentation
Ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition). Cette reconnaissance conduit à une description fine des contenus de chaque fascicule (article, section, titre d’article, légende de figure, etc.) ainsi qu’à l’identification des publicités et tableaux.

Contenu du jeu de données
Ce jeu contient la transcription réalisée par OCR et OLR des documents numérisés de plusieurs titres des collections de la BnF. Selon les titres, le jeu contient soit la totalité des fascicules numérisés du titre, soit une sous-partie restreinte à une période donnée. Les titres sont les suivants :
- L'Excelsior (1910-1920), 3 407 fascicules : http://gallica.bnf.fr/ark:/12148/cb32771891w/date
- L'Œuvre (1915-1944), 10 383 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb34429265b/date
- Marie-Claire (1937-1944), 311 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb343488519/date
- La Fronde (1897-1929), 2 269 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb327788500/date
Le jeu est organisé par titre de presse et par fascicule (un ZIP par fascicule, nommé d'après l'identifiant numérique du document). Exemple pour L'Œuvre du 2 janvier 1926 :
L_Oeuvre
4612795
manifest.xml
ocr
X0000001.xml
…
X0000006.xml
toc
T4612795.xml
Le jeu de données contient également les identifiants numériques Gallica correspondant (au format ARK) :
4612795 -> ark:/12148/bpt6k46127951
Il est également possible de déduire cet identifiant en utilisant une API Gallica (voir ci-après). Quant aux images associées aux documents du jeu, elles sont accessibles grâce à l'API IIIF (voir ci-après).
Contexte de production
Ce corpus est constitué d'une sélection des titres traités par le programme de numérisation de la presse de la BnF.
Formats du jeu de données
Ce jeu de données utilise deux formats documentaires :
- METS : description du document numérique et de sa structure logique (OLR) au format METS XML. Le modèle de données est décrit ici http://bibnum.bnf.fr/mets/, section "Profil de fichier de table de structure OLR". La structure logique des fascicules de presse est décrite dans l’élément XML suivant :
<mets:structMap LABEL="Logical Structure" TYPE="LOGICAL">
- ALTO : description de la couche texte océrisée au format XML ALTO CCS version 1.4. Voir http://www.loc.gov/standards/alto/ ethttp://www.bnf.fr/fr/professionnels/numerisation_boite_outils/a.num_conversion_mode_texte.htm
Exemples d’utilisation
- https://numapresse.hypotheses.org/
- https://www.newseye.eu/
- http://altomator.github.io/EN-data_mining/
- https://github.com/altomator/Image_Retrieval
API et jeux de données en relation
Voir cet autre jeu de données OLR.
Télécharger
- L'Excelsior (métadonnées)
- L'Excelsior (2,6 Go)
- Marie-Claire (200 Mo)
- Marie-Claire (métadonnées)
- La Fronde 1 (807 Mo)
- La Fronde 2 (779 Mo)
- La Fronde (métadonnées)
- L'Œuvre (métadonnées)
- L'Œuvre 1 (735 Mo)
- L'Œuvre 2 (732 Mo)
- L'Œuvre 3 (736 Mo)
- L'Œuvre 4 (735 Mo)
- L'Œuvre 5 (742 Mo)
- L'Œuvre 6 (742 Mo)
- L'Œuvre 7 (723 Mo)
- L'Œuvre 8 (740 Mo)
- L'Œuvre 9 (759 Mo)
- L'Œuvre 10 (1 Go)
Fiche Technique
Date de mise en ligne2019
FormatMETS ALTO
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesReconnaissance automatique de la mise en page (OLR)
SujetsTextes