Texte OCR GT Textes Documents

Gallica : texte corrigé et OCR de documents

Présentation

Ce jeu de données contient les textes océrisés et corrigés de documents des collections monographiques et périodiques de Gallica.

Alignement entre texte OCR et texte corrigé

Contenu du jeu de données

Ce jeu contient le texte de documents numériques de Gallica décliné sous trois versions :

le texte océrisé
le texte océrisé aligné avec …
… le texte corrigé (ou « vérité terrain », gold standard en anglais), produite par une intervention humaine.

Il est organisé par type de documents (monographie, périodique) et par langue (français, anglais). Il couvre quatre siècles (XVIIe-XXe).

Un fichier de métadonnées informe de la date d’édition de chaque texte, ainsi que du nombre de caractères alignés qu’il contient.

Contexte de production

Ce corpus a été produit durant le projet de recherche BnF AMELIOCR (2016-2017).

Liens de présentation du projet :

Format

Chaque fichier contient les trois versions de chaque texte (voir fichier readme.txt dans l’archive) :

[OCR_toInput]
[OCR_aligned]
[GS_aligned]

Exemples d’utilisation

Ce jeu a été utilisé par la compétition scientifique "Postcorrection de l'OCR"organisée pendant les conférences ICDAR 2017 et ICDAR 2019.

API et jeux de données en relation

L’API Gallica Texte permet d’obtenir le texte des documents numériques à partir de leur identifiant ARK :

http://gallica.bnf.fr/ark:/12148/bpt6k5773155v/f20.texteBrut

L’API Gallica OCR permet d’obtenir les fichiers OCR des documents numériques :

http://gallica.bnf.fr/RequestDigitalElement?O=bpt6k5773155v&E=ALTO&Deb=20

Aide

Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger

Fichiers CSV et TXT (75 Mo)

Fiche Technique

Source des données

Gallica

Date de mise en ligne

2017

Date de dernière mise à jour

2024

Quantité

12 millions de caractères

Formats techniques

Texte

Technologies

OCR GT

Sujets

Textes Documents

Langue

Français, anglais

Licence

Conditions d'utilisation des contenus de Gallica

Contact

jean-philippe.moreux@bnf.fr

Partage

X Facebook Linkedin

Ressources en lien

API Document de Gallica

À partir d'un document trouvé via l’API de recherche ou de l'interface Gallica, l’API Document permet de récupérer les d'informations (métadonnées) nécessaires à l'exploitation des ressources…

XML