Documents de presse en mode texte du projet Europeana Newspapers (XIXe-XXe siècles)
Présentation
Ce jeu de données contient le texte des collections de presse traitées durant le projet européen Europeana Newpapers.
Contenu du jeu de données
Ce jeu contient la transcription réalisée par OCR du texte d’environ 2 millions de pages des collections de presse de Gallica. Le format utilisé est JSON.
L’intégralité des documents numérisés dans Gallica des titres suivants sont présents :
- L’Action française : http://gallica.bnf.fr/ark:/12148/cb326819451/date
- Le Constitutionnel : http://gallica.bnf.fr/ark:/12148/cb32747578p/date
- La Croix : http://gallica.bnf.fr/ark:/12148/cb343631418/date
- L’Echo de Paris : http://gallica.bnf.fr/ark:/12148/cb34429768r/date
- Le Figaro : http://gallica.bnf.fr/ark:/12148/cb34355551z/date
- Le Gaulois : http://gallica.bnf.fr/ark:/12148/cb32779904b/date
- L’Humanité : http://gallica.bnf.fr/ark:/12148/cb327877302/date
- L’Intransigeant : http://gallica.bnf.fr/ark:/12148/cb32793876w/date
- Le Journal des débats politiques et littéraires : http://gallica.bnf.fr/ark:/12148/cb39294634r/date
- Le Matin : http://gallica.bnf.fr/ark:/12148/cb328123058/date
- Ouest Eclair (éditions de Caen, Nantes, Rennes) :
- Le Petit Journal : http://gallica.bnf.fr/ark:/12148/cb32895690j/date
- Le Petit Journal illustré supplément du dimanche : http://gallica.bnf.fr/ark:/12148/cb32836564q/date
- Le Petit Parisien : http://gallica.bnf.fr/ark:/12148/cb34419111x/date
- La Presse : http://gallica.bnf.fr/ark:/12148/cb34448033b/date
- Le Siècle : http://gallica.bnf.fr/ark:/12148/cb32868136g/date
- Le Temps : http://gallica.bnf.fr/ark:/12148/cb34431794k/date
- L’Univers : http://gallica.bnf.fr/ark:/12148/cb34520232c/date
Il est organisé par titre de presse, par année et par date de publication (un fichier JSON par fascicule). Exemple pour le journal du 15 juin 1884 :
le_petit_journal_illustre_supplement_du_dimanche.zip/1884/18840615/18840615.metadata.fulltext.json
Contexte de production
Ce corpus a été produit durant le projet de recherche européen Europeana Newspapers (2012-2015).
Liens de présentation du projet :
- http://www.europeana-newspapers.eu/
- http://www.bnf.fr/fr/professionnels/projets_europeens/s.projets_europeens_termines.html?first_Art=non#SHDC__Attribute_BlocArticle1BnF
Formats
Chaque fichier JSON contient des métadonnées informant du titre, de la date de publication et de l’identifiant ARK du document dans Gallica :
{
"title": [
"Le Petit Journal illustré Supplément du dimanche"
],
"source": [
"Bibliothèque nationale de France",
"http://gallica.bnf.fr/ark:/12148/bpt6k7155522",
"Metadata aggregated by The European Library",
"Metadata provided by National Library of France "
],
"description": [
"1884/06/15 (Numéro 1)."
],
Les contenus textuels sont stockés dans le champ contentAsText
. Les fins de paragraphe sont codées avec le caractère \n. Les éventuels tirets de césure en fin de ligne ont été supprimés.
D’autres métadonnées sont également disponibles :
- Identifiant ARK de la notice du titre de presse dans le catalogue BnF :
"relation": [
"http://data.theeuropeanlibrary.org/Collection/a0599",
"Notice du catalogue : http://catalogue.bnf.fr/ark:/12148/cb32836564q", …
- Identifiant du document dans la bibliothèque numérique européenne TEL :
"identifier": [ "http://data.theeuropeanlibrary.org/BibliographicResource/3000117762175",
"http://www.theeuropeanlibrary.org/tel4/newspapers/issue/3000117762175",
"http://www.theeuropeanlibrary.org/tel4/newspapers/issue/fullscreen/3000117762175",...]
- Taux OCR estimé (en % de mots corrects) :
"format": [
"[OCR confidence] 0,806267"]
Exemples d’utilisation
- https://scoms.hypotheses.org/657
- https://scoms.hypotheses.org/799
- https://numapresse.hypotheses.org/
API et jeux de données en relation
API
Les liens Gallica contenus dans le champ source
permettent de faire afficher les documents dans Gallica (grâce à l’identifant ARK). L’API Gallica Date fait de même à partir de la date d’un fascicule de presse. Elle opère avec comme entrée l’identifiant de la notice catalogue du titre de presse (les identifiants cb…
donnés plus haut) et une date de publication au format YYYMMDD
.
http://gallica.bnf.fr/ark:/12148/ID_notice/date+%Y+%M+%D
Exemple : http://gallica.bnf.fr/ark:/12148/cb32836564q/date18840615
L’API Gallica IIIF permet d’obtenir les images des documents numériques à partir de leur identifiant ARK :
http://gallica.bnf.fr/iiif/ark:/12148/bpt6k7155522/f1/full/full/0/native.jpg
L’API Gallica OCR permet d’obtenir les fichiers OCR des documents numériques à partir de leur identifiant ARK :
http://gallica.bnf.fr/RequestDigitalElement?O=bpt6k5773155v&E=ALTO&Deb=1
Jeux de données
Les jeux de données issus du même projet Europeana Newspapers sont listés dans la rubrique Ressources.
Aide
Téléchargement des jeux de données
Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.
Télécharger
Fiche Technique
Date de mise en ligne2015
FormatJSON
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOCR
SujetsTextes Presse Europeana Newspapers Documents