Logo BnF

API et jeux de données

    • API
    • Jeux de données brutes
    • Jeux de données transformées
    • Par source
    • Découvrir api.bnf.fr
    • Documentation
    • Exemples d'utilisations
    • Services
    • Chercheurs
    • Métiers du livre
  • Blog
  1. Vous êtes ici : Accueil
XML OLR OCR GT Presse Textes Documents

Gallica : OLR corrigé de documents de presse


Présentation

Ce jeu de données contient des pages corrigées ("vérité terrain") de documents numérisés de collections de presse traités avec une reconnaissance des articles (OLR, optical layout recognition).

Contenu du jeu de données

Ce jeu contient la transcription réalisée par OCR et OLR de documents numérisés de plusieurs titres des collections de presse la BnF (Le Gaulois, Le Matin). Cette transcription a été corrigée manuellement.

Il contient 183 pages transcrites (format PAGE XML et JPG).

Contexte de production

Ce jeu a été produit par le projet de recherche européen NewsEye.

Télécharger
  • XML, JPG (2,2 Go)
Fiche Technique
Source des données

Gallica

Date de mise en ligne

2023

Date de dernière mise à jour

2024

Quantité

183

Formats techniques

XML

Technologies

OLR OCR GT

Sujets

Presse Textes Documents

Langue

français

Licence

Conditions d'utilisation des contenus de Gallica

Partage
X Facebook Linkedin
  • © 2020 BnF
  • À propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
X facebook instagram youtube
Image agrandie dans une fenêtre modale