Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Projet IMPACT
XML JPEG / JPG TIFF OCR GT Textes Images Presse

Projet IMPACT


Les résultats du projet européen IMPACT 2012-2015) consacré à la numérisation du patrimoine écrit sont hébergés par le Centre de compétences IMPACT, chargé de diffuser outils, données et savoir-faire.

GT

Présentation

IMPACT est un projet financé par la Commission européenne (2012-2015). Il visait à améliorer de manière significative l'accès aux textes historiques et à supprimer les obstacles qui entravent la numérisation de masse du patrimoine culturel européen, en particulier ceux liés à l'océrisation.

Données disponibles

Le projet a agrégé des documents de divers types (monographies, périodiques) conservés dans plusieurs bibliothèques européennes.

Ces documents sont disponibles sous diverses formes :

  • images,
  • textes océrisés,
  • textes corrigés (vérité terrain).

Ils sont accessibles sur le site du Centre de compétences IMPACT, à la rubrique Image and ground truth resources.

Une copie de ces données est également disponible sur le site du laboratoire Prima de l'université de Salford, avec un moteur de recherche dédié. L'accès est donné sur simple demande.

Le jeu de données de la BnF contient environ 150 documents, 90 000 pages dont 8 000 dotées d'une vérité terrain au format PAGE XML (cf. état dans le tableau en téléchargement). Cette vérité terrain est également disponible sur demande exprimée à la BnF.

Télécharger
  • Vérité terrain BnF (xls)
Fiche Technique
format

XML JPEG / JPG TIFF

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OCR GT

Sujets

Textes Images Presse

Contact
jean-philippe.moreux@bnf.fr
Partage
twitter facebook Linkedin
Ressources en lien
Gallica : OCR corrigé de documents de presse

Ce jeu de données contient des pages corrigées (vérité terrain) de documents numériques de collections de presse traités avec de l'OCR (optical characters recognition).   

XML OCR GT Textes Presse Documents
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube