Documents de presse numérisés en mode « article »
Présentation
Ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition). Cette reconnaissance conduit à une description fine des contenus de chaque fascicule (article, section, titre d’article, légende de figure, etc.) ainsi qu’à l’identification des publicités et tableaux.
Contenu du jeu de données
Ce jeu contient la transcription réalisée par OCR et OLR des documents numérisés de plusieurs titres des collections de la BnF. Selon les titres, le jeu contient soit la totalité des fascicules numérisés du titre, soit une sous-partie restreinte à une période donnée. Les titres sont les suivants :
- L'Excelsior (1910-1920), 3 407 fascicules : http://gallica.bnf.fr/ark:/12148/cb32771891w/date
- L'Œuvre (1915-1944), 10 383 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb34429265b/date
- Marie-Claire (1937-1944), 311 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb343488519/date
- La Fronde (1897-1929), 2 269 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb327788500/date
D'autres titres sont disponibles sur demande (cf. liste en téléchargement).
Contexte de production
Ce corpus est constitué d'une sélection des titres traités par le programme de numérisation OLR de la presse de la BnF.
Formats du jeu de données
Le jeu est organisé par titre de presse et par fascicule (un ZIP par fascicule, nommé d'après l'identifiant numérique du document). Exemple pour L'Œuvre du 2 janvier 1926 :
L_Oeuvre
4612795
manifest.xml
ocr
X0000001.xml
…
X0000006.xml
toc
T4612795.xml
Le jeu de données contient les identifiants numériques Gallica correspondant (au format ARK) :
4612795 -> ark:/12148/bpt6k46127951
Il est également possible de déduire cet identifiant en utilisant une API Gallica (voir ci-après). Quant aux images associées aux documents du jeu, elles sont accessibles grâce à l'API IIIF (voir ci-après).
Ce jeu de données utilise deux formats documentaires :
- METS : description du document numérique et de sa structure logique (OLR) au format METS XML. Le modèle de données est décrit ici http://bibnum.bnf.fr/mets/, section "Profil de fichier de table de structure OLR". La structure logique des fascicules de presse est décrite dans l’élément XML suivant :
<mets:structMap LABEL="Logical Structure" TYPE="LOGICAL">
- ALTO : description de la couche texte océrisée au format XML ALTO CCS version 1.4. Voir http://www.loc.gov/standards/alto/ ethttp://www.bnf.fr/fr/professionnels/numerisation_boite_outils/a.num_conversion_mode_texte.htm
Exemples d’utilisation
Ce jeu a été utilisé comme source de documents ou vérité terrain par plusieurs projets :
- https://numapresse.hypotheses.org/
- https://www.newseye.eu/
- http://altomator.github.io/EN-data_mining/
- https://github.com/altomator/Image_Retrieval
Dans le cas d'un usage en tant que vérité terrain, il faut noter que la structuration et la classification ont été réalisées manuellement mais non vérifiées.
Télécharger
Fiche Technique
Date de mise en ligne2019
FormatMETS ALTO
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOLR GT OCR
SujetsTextes Presse Documents