Documents de presse numérisés en mode « article » du projet Europeana Newspapers
Présentation
Ce jeu de données contient les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance de la mise en page (OLR, optical layout recognition). Cette reconnaissance conduit à une description fine des contenus de chaque fascicule (article, section, titre d’article, légende de figure, etc.) ainsi qu’à l’identification des publicités et tableaux.
Contenu du jeu de données
Ce jeu contient la transcription réalisée par OCR et OLR d’environ 147 000 fascicules (790 000 pages) des collections de presse de Gallica traitées durant le projet Europeana Newspapers.
Tous les documents numérisés des titres suivants sont présents dans ce jeu de données :
- Le Gaulois : http://gallica.bnf.fr/ark:/12148/cb32779904b/date
- Le Journal des débats politiques et littéraires : http://gallica.bnf.fr/ark:/12148/cb39294634r/date
- Le Matin : http://gallica.bnf.fr/ark:/12148/cb328123058/date
- Ouest Eclair (éditions de Caen, Rennes) :
- Le Petit Journal illustré supplément du dimanche : http://gallica.bnf.fr/ark:/12148/cb32836564q/date
- Le Petit Parisien : http://gallica.bnf.fr/ark:/12148/cb34419111x/date
Le jeu est organisé par titre de presse, par année et par date de publication (un dossier par fascicule). Exemple pour le Petit Journal illustré du 2 janvier 1910 :
PJI
19100102_1
19100102_1-METS.xml
ALTO
19100102_1-0001.xml
…
19100102_1-0008.xml
Le jeu de données contient également les identifiants numériques Gallica correspondant (au format ARK) sous la forme d’un tableau mettant en relation titre de journal, date et identifiant ARK Gallica (voir archive ZIP "Métadonnées"). Il est également possible de déduire cet identifiant en utilisant une API Gallica (voir ci-après).
Contexte de production
Ce corpus a été produit durant le projet de recherche européen Europeana Newspapers (2012-2015).
Liens de présentation du projet :
- http://www.europeana-newspapers.eu/
- http://www.bnf.fr/fr/professionnels/projets_europeens/s.projets_europeens_termines.html?first_Art=non#SHDC__Attribute_BlocArticle1BnF
Formats du jeu de données
Ce jeu de données utilise deux formats documentaires :
- METS : description du document numérique et de sa structure logique (OLR) au format METS XML. Des éléments d’information sont disponibles ici : http://bibnum.bnf.fr/mets/ (Note : les profils METS du jeu et celui de la BnF sont voisins mais différents). La structure logique des fascicules de presse est décrite dans l’élément XML suivant :
<mets:structMap LABEL="Logical Structure" TYPE="LOGICAL">
- ALTO : description de la couche texte océrisée au format XML ALTO CCS version 1.4. Voir http://www.loc.gov/standards/alto/ et http://www.bnf.fr/fr/professionnels/numerisation_boite_outils/a.num_conversion_mode_texte.html
Exemples d’utilisation
Ce jeu a été utilisé comme source de documents ou vérité terrain par plusieurs projets :
Dans le cas d'un usage en tant que vérité terrain, il faut noter que la structuration et la classification ont été réalisées semi-automatiquement, contrôlées pour partie mais non vérifiées en totalité.
API et jeux de données en relation
API
L’API Gallica « Date » permet d’afficher un fascicule de presse dans Gallica à partir de sa date de publication. Elle opère avec comme entrée l’identifiant de la notice catalogue du titre de presse (les identifiants cb…
décrits ci-avant) et une date de publication au format YYYMMDD.
http://gallica.bnf.fr/ark:/12148/ID_notice/date+%Y+%M+%D
Exemple : http://gallica.bnf.fr/ark:/12148/cb32836564q/date18840615
L’API Gallica IIIF permet d’obtenir les images des documents numériques à partir de leur identifiant ARK :
http://gallica.bnf.fr/iiif/ark:/12148/bpt6k7155522/f1/full/full/0/native.jpg
Jeux de données
Un autre jeu de données OLR est disponible.
Les autres jeux de données issus du même projet Europeana Newspapers sont listés dans la rubrique Ressources.
Aide
Téléchargement des jeux de données
Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.
Télécharger
Fiche Technique
Date de mise en ligne2015
FormatMETS ALTO
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOLR GT
SujetsTextes Presse Europeana Newspapers