XML OCR GT Textes Presse Documents

Gallica : OCR corrigé de documents de presse

Présentation

Ce jeu de données contient des pages corrigées (vérité terrain) de documents numériques de collections de presse traités avec de l'OCR (optical characters recognition).

http://gallica.bnf.fr/ark:/12148/bpt6k296011x/f10.image

Contenu du jeu de données

Ce jeu contient la transcription manuelle de pages de presse des collections de Gallica traitées durant plusieurs projets de recherche (dont Europeana Newspapers) ou programmes de numérisation. Cette transcription consiste en l'identification des différentes zones de la page (texte, illustration, autres éléments graphiques) et en la transcription du texte.

Projet	Source	Quantité
Europeana Newspapers	British Library	73
	Gallica	54
BnF (numérisation interne)	Gallica	121
	BNUS	1
IMPACT	Gallica	16
NewsEye	Gallica	135

Il est organisé par projet/programme.

Généralement, les pages corrigées sont décrites dans un tableau organisé comme suit :

Image  UD     Titre     Ark                            Date       Pages  
---------------------------------------------------------------------------
674978 268644 Le Figaro http://gallica.bnf.fr/ark:...  26-12-1836 8

La première colonne donne l’identifiant du fichier de vérité terrain (au format PAGE XML). Le fichier est stocké dans un dossier nommé d’après le titre de presse puis dans un sous-dossier PAGE (ou P) :

Le Figaro
  PAGE
    00674978.xml
    …

Note : un export texte (fichier .txt) est parfois fourni dans le sous-dossier PAGE et l’OCR Gallica dans un sous-dossier ALTO.

La deuxième colonne contient l’identifiant numérique du document Gallica correspondant et la 4e son URL dans Gallica (avec l'information du numéro de vue à la suite du qualificateur f) :

268644 -> http://gallica.bnf.fr/ark:/12148/bpt6k268644s/f4.image

Les images des documents sont stockées dans les sous-dossiers T (au format TIFF) ou D (au format JPEG).

Contexte de production

Ces jeux ont été produits à l’aide des outils Aletheia (projet de recherche IMPACT) ou Transkribus (projet de recherche READ).

Formats du jeu de données

Ce jeu de données utilise les formats PAGE XML et ALTO.

Exemples d’utilisation

Ce jeu de données peut servir à évaluer les performances de systèmes OCR dédiés à la presse. Voir par exemple http://www.europeana-newspapers.eu/public-materials/deliverables/ (section "Work Package 3").

API et jeux de données en relation

API

L’API Gallica IIIF permet d’obtenir les images des documents numériques à partir de leur identifiant ARK : http://gallica.bnf.fr/iiif/ark:/12148/bpt6k268644s/f4/full/full/0/native.jpg

L’API Gallica OCR permet d’obtenir les fichiers OCR des documents numériques : http://gallica.bnf.fr/RequestDigitalElement?O=bpt6k268644s&E=ALTO&Deb=4

Jeux de données

Les jeux de données des autres bibliothèques européennes partenaires du projet Europeana Newspapers sont disponibles en ligne et sur demande.

Les jeux de données suivants présentent également des textes océrisés (et parfois corrigés) :

Corpus texte : le texte des collections de presse traitées durant le projet européen Europeana Newspapers.
OLR : les collections de presse traitées en mode "article" durant le projet européen Europeana Newspapers
OCR aligné : les textes océrisés et corrigés de documents des collections monographiques et périodiques de Gallica.

Aide

Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger

Fichiers ZIP (5,5 Go)

Fiche Technique

Date de mise en ligne

2015

Date de dernière mise à jour

2024

Quantité

Formats techniques

XML

Technologies

OCR GT

Sujets

Textes Presse Documents

Langue

Français

Licence

Conditions d'utilisation des contenus de Gallica

Contact

jean-philippe.moreux@bnf.fr

Partage

Twitter Facebook Linkedin

Ressources en lien

Projet Europeana Newspapers

Lancé en février 2012, le projet européen Europeana Newspapers avait comme objectif de garantir une visibilité augmentée et un meilleur accès aux collections numérisées de la presse européenne.

XML Texte OCR OLR GT Presse