Documents de presse numérisés en mode « OCR » du projet Europeana Newspapers
Présentation
Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance du texte (OCR, optical character recognition).
Contenu du jeu de données
Ce jeu contient la transcription réalisée par OCR d’environ 275 000 fascicules des collections de presse de Gallica traitées durant le projet Europeana Newspapers.
Tous les documents numérisés des titres suivants sont présents :
- Le Figaro
- L'Echo de Paris
- L'Univers
- La Presse
- L'Humanité
- Le Constitutionnel
- Le Petit Journal
- Le Siècle
- L'Action Française
- L'Intransigeant
- Le Temps
- La Croix
Le jeu est organisé par titre de presse, par année et par date de publication (un dossier par fascicule). Exemple pour le La Presse du 1er janvier 1910 :
La Presse
BnF_00028_19100101
BnF_00028_19100101_mets.xml
alto
00000001.xml
…
00000004.xml
Le jeu de données contient également les identifiants numériques Gallica correspondant (au format ARK) sous la forme d’un tableau mettant en relation titre de journal, date et identifiant ARK Gallica (voir archive ZIP). Il est également possible de déduire cet identifiant en utilisant une API Gallica (voir ci-après).
Contexte de production
Ce corpus a été produit durant le projet de recherche européen Europeana Newspapers (2012-2015).
Liens de présentation du projet :
- http://www.europeana-newspapers.eu/
- http://www.bnf.fr/fr/professionnels/projets_europeens/s.projets_europeens_termines.html?first_Art=non#SHDC__Attribute_BlocArticle1BnF
Formats du jeu de données
Ce jeu de données utilise deux formats documentaires :
- METS : description du document numérique au format METS XML. Des éléments d’information sont disponibles ici : http://bibnum.bnf.fr/mets/ (Note : les profils METS du jeu et celui de la BnF sont voisins mais différents).
- ALTO : description de la couche texte océrisée au format XML ALTO version 2.0. Voir http://www.loc.gov/standards/alto/ et http://www.bnf.fr/fr/professionnels/numerisation_boite_outils/a.num_conversion_mode_texte.html
Exemples d’utilisation
- https://numapresse.hypotheses.org/
- http://altomator.github.io/EN-data_mining/
- http://altomator.github.io/EN-Image_Retrieval/
API et jeux de données en relation
API
L’API Gallica « Date » permet d’afficher un fascicule de presse dans Gallica à partir de sa date de publication. Elle opère avec comme entrée l’identifiant de la notice catalogue du titre de presse (les identifiants cb…
décrits ci-avant) et une date de publication au format YYYMMDD.
http://gallica.bnf.fr/ark:/12148/ID_notice/date+%Y+%M+%D
Exemple : http://gallica.bnf.fr/ark:/12148/cb32836564q/date18840615
L’API Gallica IIIF permet d’obtenir les images des documents numériques à partir de leur identifiant ARK :
http://gallica.bnf.fr/iiif/ark:/12148/bpt6k7155522/f1/full/full/0/native.jpg
Jeux de données
Les jeux de données issus du projet Europeana Newspapers sont listés dans la rubrique Ressources.
Aide
Téléchargement des jeux de données
Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.
Télécharger
Fiche Technique
Date de mise en ligne2015
FormatMETS ALTO
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOCR
SujetsTextes Presse Europeana Newspapers Documents