Documents de presse numérisés en mode « article »
Présentation
Ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition). Cette reconnaissance conduit à une description fine des contenus de chaque fascicule (article, section, titre d’article, légende de figure, etc.) ainsi qu’à l’identification des publicités et tableaux.

Contenu du jeu de données
Ce jeu contient la transcription réalisée par OCR et OLR des documents numérisés de plusieurs titres des collections de la BnF. Selon les titres, le jeu contient soit la totalité des fascicules numérisés du titre, soit une sous-partie restreinte à une période donnée. Les titres sont les suivants :
- L'Excelsior (1910-1920), 3 407 fascicules : http://gallica.bnf.fr/ark:/12148/cb32771891w/date
- L'Œuvre (1915-1944), 10 383 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb34429265b/date
- Marie-Claire (1937-1944), 311 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb343488519/date
- La Fronde (1897-1929), 2 269 fascicules, titre complet : http://gallica.bnf.fr/ark:/12148/cb327788500/date
D'autres titres sont disponibles sur demande (cf. liste en téléchargement).
Contexte de production
Ce corpus est constitué d'une sélection des titres traités par le programme de numérisation OLR de la presse de la BnF.
Formats du jeu de données
Le jeu est organisé par titre de presse et par fascicule (un ZIP par fascicule, nommé d'après l'identifiant numérique du document). Exemple pour L'Œuvre du 2 janvier 1926 :
L_Oeuvre
4612795
manifest.xml
ocr
X0000001.xml
…
X0000006.xml
toc
T4612795.xml
Le jeu de données contient les identifiants numériques Gallica correspondant (au format ARK) :
4612795 -> ark:/12148/bpt6k46127951
Il est également possible de déduire cet identifiant en utilisant une API Gallica (voir ci-après). Quant aux images associées aux documents du jeu, elles sont accessibles grâce à l'API IIIF (voir ci-après).
Ce jeu de données utilise deux formats documentaires :
- METS : description du document numérique et de sa structure logique (OLR) au format METS XML. Le modèle de données est décrit ici http://bibnum.bnf.fr/mets/, section "Profil de fichier de table de structure OLR". La structure logique des fascicules de presse est décrite dans l’élément XML suivant :
<mets:structMap LABEL="Logical Structure" TYPE="LOGICAL">
- ALTO : description de la couche texte océrisée au format XML ALTO CCS version 1.4. Voir http://www.loc.gov/standards/alto/ ethttp://www.bnf.fr/fr/professionnels/numerisation_boite_outils/a.num_conversion_mode_texte.htm
Exemples d’utilisation
Ce jeu a été utilisé comme source de documents ou vérité terrain par plusieurs projets :
- https://numapresse.hypotheses.org/
- https://www.newseye.eu/
- http://altomator.github.io/EN-data_mining/
- https://github.com/altomator/Image_Retrieval
Dans le cas d'un usage en tant que vérité terrain, il faut noter que la structuration et la classification ont été réalisées manuellement mais non vérifiées.
API et jeux de données en relation
Voir cet autre jeu de données OLR.
Aide
Téléchargement des jeux de données
Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.
Télécharger
- L'Excelsior (métadonnées)
- L'Excelsior (2,6 Go)
- Marie-Claire (200 Mo)
- Marie-Claire (métadonnées)
- La Fronde 1 (807 Mo)
- La Fronde 2 (779 Mo)
- La Fronde (métadonnées)
- L'Œuvre (métadonnées)
- L'Œuvre 1 (735 Mo)
- L'Œuvre 2 (732 Mo)
- L'Œuvre 3 (736 Mo)
- L'Œuvre 4 (735 Mo)
- L'Œuvre 5 (742 Mo)
- L'Œuvre 6 (742 Mo)
- L'Œuvre 7 (723 Mo)
- L'Œuvre 8 (740 Mo)
- L'Œuvre 9 (759 Mo)
- L'Œuvre 10 (1 Go)
- Liste des titres (Excel)
Fiche Technique
Date de mise en ligne2019
FormatMETS ALTO
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOLR GT
SujetsTextes