Pyllica est un outil écrit en Python permettant de récupérer des documents hébergés sur la bibliothèque numérique Gallica.
Lancé en février 2012, le projet européen Europeana Newspapers avait comme objectif de garantir une visibilité augmentée et un meilleur accès aux collections numérisées de la presse européenne.
Ce jeu de données contient les textes océrisés et corrigés de documents des collections monographiques et périodiques de Gallica.
Ce jeu de données est constitué de textes extraits de documents des collections de presse traitées durant le projet européen Europeana Newspapers et annotés en terme d’entités nommées de type Perso
HBA est un jeu de données dédié à l'analyse de la structure de mise en page d'ouvrages anciens. Il constitue une vérité terrain d'images annotées au niveau pixel.