PAGE XML
OLR
OCR
GT
Presse
Textes
Documents
Gallica : OLR corrigé de documents de presse
Présentation
Ce jeu de données contient des pages corrigées ("vérité terrain") de documents numérisés de collections de presse traités avec une reconnaissance des articles (OLR, optical layout recognition).
Contenu du jeu de données
Ce jeu contient la transcription réalisée par OCR et OLR de documents numérisés de plusieurs titres des collections de presse la BnF (Le Gaulois, Le Matin). Cette transcription a été corrigée manuellement.
Il contient 183 pages transcrites (format PAGE XML et JPG).
Contexte de production
Ce jeu a été produit par le projet de recherche européen NewsEye.
Télécharger
Fiche Technique
Date de mise en ligne2023
FormatPAGE XML
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOLR OCR GT
SujetsPresse Textes Documents