Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Gallica : Texte Corrigé Et OCR De Documents
Texte OCR GT Textes Documents

Gallica : texte corrigé et OCR de documents


Présentation

Ce jeu de données contient les textes océrisés et corrigés de documents des collections monographiques et périodiques de Gallica.

 

texte-corr-1

Alignement entre texte OCR et texte corrigé

Contenu du jeu de données

Ce jeu contient  le texte de documents numériques de Gallica décliné sous trois versions :

  • le texte océrisé
  • le texte océrisé aligné avec …
  • … le texte corrigé (ou « vérité terrain », gold standard en anglais), produite par une intervention humaine.

Il est organisé par type de documents (monographie, périodique) et par langue (français, anglais). Il couvre quatre siècles (XVIIe-XXe).

Un fichier de métadonnées informe de la date d’édition de chaque texte, ainsi que du nombre de caractères alignés qu’il contient.

Contexte de production

Ce corpus a été produit durant le projet de recherche BnF AMELIOCR (2016-2017).

Liens de présentation du projet :

  • http://actions-recherche.bnf.fr/BnF/anirw3.nsf/IX01/A2016000030_post-correction-d-ocr-pour-les-ouvrages-anciens-en-exploitant-les-associations-lexicales-de-l-ocr-bruite
  • https://hal.archives-ouvertes.fr/hal-01455763

Format

Chaque fichier contient les trois versions de chaque texte (voir fichier readme.txt dans l’archive) :

  • [OCR_toInput]
  • [OCR_aligned]
  • [GS_aligned]

Exemples d’utilisation

Ce jeu a été utilisé par la compétition scientifique "Postcorrection de l'OCR"organisée pendant les conférences ICDAR 2017 et ICDAR 2019.

API et jeux de données en relation

L’API Gallica Texte permet d’obtenir le texte des documents numériques à partir de leur identifiant ARK :

http://gallica.bnf.fr/ark:/12148/bpt6k5773155v/f20.texteBrut

L’API Gallica OCR permet d’obtenir les fichiers OCR des documents numériques :

http://gallica.bnf.fr/RequestDigitalElement?O=bpt6k5773155v&E=ALTO&Deb=20

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • Fichiers CSV et TXT (75 Mo)
Fiche Technique
Date de mise en ligne

2017

Format

Texte

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OCR GT

Sujets

Textes Documents

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
API Document de Gallica

À partir d'un document trouvé via l’API de recherche ou de l'interface Gallica, l’API Document permet de récupérer les d'informations (métadonnées) nécessaires à l'exploitation des ressources numér

XML
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube