Ce jeu de données contient des pages corrigées (vérité terrain) de documents numériques de collections de presse traités avec de l'OCR (optical characters recognition).
La base iconographique Mandragore utilise un thésauru