Logo BnF

API et jeux de données

fr
  • Accueil
    • Catalogue général de la BnF
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Mandragore
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. OCR Corrigé De Documents De Presse De Gallica
XML OCR GT Textes

OCR corrigé de documents de presse de Gallica


Présentation

Ce jeu de données contient des pages corrigées (vérité terrain) de documents numériques des collections de presse traités avec de l'OCR (optical characters recognition). 

 

en-olr-vt

http://gallica.bnf.fr/ark:/12148/bpt6k296011x/f10.image

Contenu du jeu de données

Ce jeu contient la transcription manuelle de pages de presse des collections de Gallica traitées durant plusieurs projets de recherche (dont Europeana Newspapers) ou programmes de numérisation. Cette transcription consiste en l'identification des différentes zones de la page (texte, illustration, autres éléments graphiques) et en la transcription du texte.

Projet Source Quantité
Europeana Newspapers British Library 73
BnF Gallica 121
IMPACT Gallica 16

 

Il est organisé par projet/programme. Au sein de chaque jeu, les pages corrigées sont décrites dans un tableau organisé comme suit :

Image  UD     Titre     Ark                            Date       Pages  
---------------------------------------------------------------------------
674978 268644 Le Figaro http://gallica.bnf.fr/ark:...  26-12-1836 8

La première colonne donne l’identifiant du fichier de vérité terrain (au format PAGE XML). Le fichier est stocké dans un dossier nommé d’après le titre de presse puis dans un sous-dossier PAGE (ou P) :

Le Figaro
  PAGE
    00674978.xml
    …

Note : un export texte (fichier .txt) est parfois fourni dans le sous-dossier PAGE et l’OCR Gallica dans un sous-dossier ALTO.

La deuxième colonne contient l’identifiant numérique du document Gallica correspondant et la 4e son URL dans Gallica (avec l'information du numéro de vue à la suite du qualificateur f) :

268644 -> http://gallica.bnf.fr/ark:/12148/bpt6k268644s/f4.image

Les images des documents sont stockées dans les sous-dossiers T (au format TIFF) ou D (au format JPEG).

Contexte de production

Ces jeux ont été produits à l’aide de l’outil de création de vérité terrain Aletheia issu du projet de recherche IMPACT.

Formats du jeu de données

Ce jeu de données utilise les formats PAGE XML et ALTO.

Exemples d’utilisation

Ce jeu de données peut servir à évaluer les performances de systèmes OCR dédiés à la presse. Voir par exemple http://www.europeana-newspapers.eu/public-materials/deliverables/  (section "Work Package 3").

API et jeux de données en relation

API

L’API Gallica IIIF permet d’obtenir les images des documents numériques à partir de leur identifiant ARK : http://gallica.bnf.fr/iiif/ark:/12148/bpt6k268644s/f4/full/full/0/native.jpg

L’API Gallica OCR permet d’obtenir les fichiers OCR des documents numériques : http://gallica.bnf.fr/RequestDigitalElement?O=bpt6k268644s&E=ALTO&Deb=4

Jeux de données

Les jeux de données des autres bibliothèques européennes partenaires du projet Europeana Newspapers sont disponibles en ligne et sur demande.

Les jeux de données suivants présentent également des textes océrisés (et parfois corrigés) :

  • Corpus texte : le texte des collections de presse traitées durant le projet européen Europeana Newspapers.
  • OLR : les collections de presse traitées en mode "article" durant le projet européen Europeana Newspapers
  • OCR aligné : les textes océrisés et corrigés de documents des collections monographiques et périodiques de Gallica.

 

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • Jeu projet Europeana Newspapers (1,2 Go)
  • Jeu BnF-Presse 1 (1,2 Go)
  • Jeu BnF-Presse 2 (350 Mo)
  • Jeu projet IMPACT (170 Mo)
Fiche Technique
Date de mise en ligne

2015

Format

XML

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OCR GT

Sujets

Textes

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Projet Europeana Newspapers

Lancé en février 2012, le projet européen Europeana Newspapers avait comme objectif de garantir une visibilité augmentée et un meilleur accès aux collections numérisées de la presse européenne.

XML Texte OCR OLR GT Presse
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube