Gallica : texte corrigé et OCR de documents
Présentation
Ce jeu de données contient les textes océrisés et corrigés de documents des collections monographiques et périodiques de Gallica.
Alignement entre texte OCR et texte corrigé
Contenu du jeu de données
Ce jeu contient le texte de documents numériques de Gallica décliné sous trois versions :
- le texte océrisé
- le texte océrisé aligné avec …
- … le texte corrigé (ou « vérité terrain », gold standard en anglais), produite par une intervention humaine.
Il est organisé par type de documents (monographie, périodique) et par langue (français, anglais). Il couvre quatre siècles (XVIIe-XXe).
Un fichier de métadonnées informe de la date d’édition de chaque texte, ainsi que du nombre de caractères alignés qu’il contient.
Contexte de production
Ce corpus a été produit durant le projet de recherche BnF AMELIOCR (2016-2017).
Liens de présentation du projet :
- http://actions-recherche.bnf.fr/BnF/anirw3.nsf/IX01/A2016000030_post-correction-d-ocr-pour-les-ouvrages-anciens-en-exploitant-les-associations-lexicales-de-l-ocr-bruite
- https://hal.archives-ouvertes.fr/hal-01455763
Format
Chaque fichier contient les trois versions de chaque texte (voir fichier readme.txt dans l’archive) :
- [OCR_toInput]
- [OCR_aligned]
- [GS_aligned]
Exemples d’utilisation
Ce jeu a été utilisé par la compétition scientifique "Postcorrection de l'OCR"organisée pendant les conférences ICDAR 2017 et ICDAR 2019.
API et jeux de données en relation
L’API Gallica Texte permet d’obtenir le texte des documents numériques à partir de leur identifiant ARK :
http://gallica.bnf.fr/ark:/12148/bpt6k5773155v/f20.texteBrut
L’API Gallica OCR permet d’obtenir les fichiers OCR des documents numériques :
http://gallica.bnf.fr/RequestDigitalElement?O=bpt6k5773155v&E=ALTO&Deb=20
Aide
Téléchargement des jeux de données
Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.
Télécharger
Fiche Technique
Date de mise en ligne2017
FormatTexte
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOCR GT
SujetsTextes Documents