Ce jeu de données fournit le texte océrisé des monographies en langue française de la collection numérique de Gallica.
Dans le cadre du projet ARMA : The Art of Reading
Ce jeu de données contient des pages corrigées (vérité terrain) de documents numériques de collections de presse traités avec de l'OCR (optical characters recognition).