Ce jeu de données fournit le texte océrisé des monographies en langue française de la collection numérique de Gallica.
Dans le cadre du projet ARMA : The Art of Reading
Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la BnF collecte régulièrement le web politique français.
Ce jeu de données contient des pages corrigées (vérité terrain) de documents numériques de collections de presse traités avec de l'OCR (optical characters recognition).