Gallica : OLR corrigé de documents de presse
Ce jeu de données contient des pages corrigées ("vérité terrain") de documents numérisés de collections de presse traités avec une reconnaissance des articles (OLR, optical layout recognition
PAGE XML
OLR
OCR
GT
Presse
Textes
Documents