Gallica : OCR corrigé de documents de presse
Présentation
Ce jeu de données contient des pages corrigées (vérité terrain) de documents numériques de collections de presse traités avec de l'OCR (optical characters recognition).

http://gallica.bnf.fr/ark:/12148/bpt6k296011x/f10.image
Contenu du jeu de données
Ce jeu contient la transcription manuelle de pages de presse des collections de Gallica traitées durant plusieurs projets de recherche (dont Europeana Newspapers) ou programmes de numérisation. Cette transcription consiste en l'identification des différentes zones de la page (texte, illustration, autres éléments graphiques) et en la transcription du texte.
Projet | Source | Quantité |
Europeana Newspapers | British Library | 73 |
Gallica | 54 | |
BnF (numérisation interne) | Gallica | 121 |
BNUS | 1 | |
IMPACT | Gallica | 16 |
NewsEye | Gallica | 135 |
Il est organisé par projet/programme.
Généralement, les pages corrigées sont décrites dans un tableau organisé comme suit :
Image UD Titre Ark Date Pages
---------------------------------------------------------------------------
674978 268644 Le Figaro http://gallica.bnf.fr/ark:... 26-12-1836 8
La première colonne donne l’identifiant du fichier de vérité terrain (au format PAGE XML). Le fichier est stocké dans un dossier nommé d’après le titre de presse puis dans un sous-dossier PAGE (ou P) :
Le Figaro
PAGE
00674978.xml
…
Note : un export texte (fichier .txt) est parfois fourni dans le sous-dossier PAGE et l’OCR Gallica dans un sous-dossier ALTO.
La deuxième colonne contient l’identifiant numérique du document Gallica correspondant et la 4e son URL dans Gallica (avec l'information du numéro de vue à la suite du qualificateur f
) :
268644 -> http://gallica.bnf.fr/ark:/12148/bpt6k268644s/f4.image
Les images des documents sont stockées dans les sous-dossiers T (au format TIFF) ou D (au format JPEG).
Contexte de production
Ces jeux ont été produits à l’aide des outils Aletheia (projet de recherche IMPACT) ou Transkribus (projet de recherche READ).
Formats du jeu de données
Ce jeu de données utilise les formats PAGE XML et ALTO.
Exemples d’utilisation
Ce jeu de données peut servir à évaluer les performances de systèmes OCR dédiés à la presse. Voir par exemple http://www.europeana-newspapers.eu/public-materials/deliverables/ (section "Work Package 3").
API et jeux de données en relation
API
L’API Gallica IIIF permet d’obtenir les images des documents numériques à partir de leur identifiant ARK : http://gallica.bnf.fr/iiif/ark:/12148/bpt6k268644s/f4/full/full/0/native.jpg
L’API Gallica OCR permet d’obtenir les fichiers OCR des documents numériques : http://gallica.bnf.fr/RequestDigitalElement?O=bpt6k268644s&E=ALTO&Deb=4
Jeux de données
Les jeux de données des autres bibliothèques européennes partenaires du projet Europeana Newspapers sont disponibles en ligne et sur demande.
Les jeux de données suivants présentent également des textes océrisés (et parfois corrigés) :
- Corpus texte : le texte des collections de presse traitées durant le projet européen Europeana Newspapers.
- OLR : les collections de presse traitées en mode "article" durant le projet européen Europeana Newspapers
- OCR aligné : les textes océrisés et corrigés de documents des collections monographiques et périodiques de Gallica.
Aide
Téléchargement des jeux de données
Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.
Télécharger
Fiche Technique
Date de mise en ligne2015
FormatXML
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOCR GT
SujetsTextes Presse Documents