Pyllica est un outil écrit en Python permettant de récupérer des documents hébergés sur la bibliothèque numérique Gallica.
Les résultats du projet européen IMPACT 2012-2015) consacré à la numérisation du patrimoine écrit sont hébergés par le Centre de compétences IMPACT, chargé de diffuser outils, données et savoir-faire.
Ce jeu de données propose des publicités illustrées parues dans des périodiques du XXe siècle (quotidiens, revues et magazines).
Ce jeu de données contient des pages corrigées ("vérité terrain") de documents numérisés de collections de presse traités avec une reconnaissance des articles (OLR, optical layout recognition