Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Gallica : OCR Corrigé De Documents De Presse
XML OCR GT Textes Presse Documents

Gallica : OCR corrigé de documents de presse


Présentation

Ce jeu de données contient des pages corrigées (vérité terrain) de documents numériques de collections de presse traités avec de l'OCR (optical characters recognition). 

 

en-olr-vt

http://gallica.bnf.fr/ark:/12148/bpt6k296011x/f10.image

Contenu du jeu de données

Ce jeu contient la transcription manuelle de pages de presse des collections de Gallica traitées durant plusieurs projets de recherche (dont Europeana Newspapers) ou programmes de numérisation. Cette transcription consiste en l'identification des différentes zones de la page (texte, illustration, autres éléments graphiques) et en la transcription du texte.

Projet Source Quantité
Europeana Newspapers British Library 73
  Gallica 54
BnF (numérisation interne) Gallica 121
  BNUS 1
IMPACT  Gallica 16
NewsEye Gallica 135

Il est organisé par projet/programme.

Généralement, les pages corrigées sont décrites dans un tableau organisé comme suit :

Image  UD     Titre     Ark                            Date       Pages  
---------------------------------------------------------------------------
674978 268644 Le Figaro http://gallica.bnf.fr/ark:...  26-12-1836 8

La première colonne donne l’identifiant du fichier de vérité terrain (au format PAGE XML). Le fichier est stocké dans un dossier nommé d’après le titre de presse puis dans un sous-dossier PAGE (ou P) :

Le Figaro
  PAGE
    00674978.xml
    …

Note : un export texte (fichier .txt) est parfois fourni dans le sous-dossier PAGE et l’OCR Gallica dans un sous-dossier ALTO.

La deuxième colonne contient l’identifiant numérique du document Gallica correspondant et la 4e son URL dans Gallica (avec l'information du numéro de vue à la suite du qualificateur f) :

268644 -> http://gallica.bnf.fr/ark:/12148/bpt6k268644s/f4.image

Les images des documents sont stockées dans les sous-dossiers T (au format TIFF) ou D (au format JPEG).

Contexte de production

Ces jeux ont été produits à l’aide des outils Aletheia (projet de recherche IMPACT) ou Transkribus (projet de recherche READ).

Formats du jeu de données

Ce jeu de données utilise les formats PAGE XML et ALTO.

Exemples d’utilisation

Ce jeu de données peut servir à évaluer les performances de systèmes OCR dédiés à la presse. Voir par exemple http://www.europeana-newspapers.eu/public-materials/deliverables/  (section "Work Package 3").

API et jeux de données en relation

API

L’API Gallica IIIF permet d’obtenir les images des documents numériques à partir de leur identifiant ARK : http://gallica.bnf.fr/iiif/ark:/12148/bpt6k268644s/f4/full/full/0/native.jpg

L’API Gallica OCR permet d’obtenir les fichiers OCR des documents numériques : http://gallica.bnf.fr/RequestDigitalElement?O=bpt6k268644s&E=ALTO&Deb=4

Jeux de données

Les jeux de données des autres bibliothèques européennes partenaires du projet Europeana Newspapers sont disponibles en ligne et sur demande.

Les jeux de données suivants présentent également des textes océrisés (et parfois corrigés) :

  • Corpus texte : le texte des collections de presse traitées durant le projet européen Europeana Newspapers.
  • OLR : les collections de presse traitées en mode "article" durant le projet européen Europeana Newspapers
  • OCR aligné : les textes océrisés et corrigés de documents des collections monographiques et périodiques de Gallica.

 

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • Fichiers ZIP (5,5 Go)
Fiche Technique
Date de mise en ligne

2015

Format

XML

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OCR GT

Sujets

Textes Presse Documents

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Projet Europeana Newspapers

Lancé en février 2012, le projet européen Europeana Newspapers avait comme objectif de garantir une visibilité augmentée et un meilleur accès aux collections numérisées de la presse européenne.

XML Texte OCR OLR GT Presse
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube