Logo BnF

API et jeux de données

fr
  • Accueil
    • Catalogue général de la BnF
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Mandragore
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Dumps Gallica : OCR Des Monographies
HTML Texte OCR Documents

Dumps Gallica : OCR des monographies


Présentation

Ce jeu de données fournit le texte océrisé des monographies en langue française de la collection numérique de Gallica.

Contenu du jeu de données

Il contient le texte transcrit par OCR des monographies de langue française de Gallica (en ligne à la date de mars 2021), pour lesquelles le texte n'est pas l'objet de conditions d'usage restrictives, soit environ 289 000 ouvrages.

La requête Gallica correspondant aux monographies de langue française avec OCR et en ligne à la date de mars 2021, est la suivante :

https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&exactSearch=true&collapsing=false&version=1.2&query=(dc.language%20all%20%22fre%22)%20and%20(dc.type%20all%20%22monographie%22)%20and%20(gallicapublication_date%3E=%221380%22)%20and%20(ocr.quality%20all%20%22Texte%20disponible%22)%20and%20(indexationdate%3C=%222021/04/01%22)

Elle renvoie environ 377k documents, la différence entre les deux quantités correspondant en majorité au corpus du progamme de numérisation des Indisponibles du XXe siècle, qui est référencé dans Gallica mais dont les textes sont soumis à une restriction d'usage.

Fomat du jeu de données

Le jeu se compose :

  • des métadonnées au format CSV des monographies concernées (375546)
  • de la liste des identifiants des monographies disposant d'un OCR, accessible via l'API Gallica texteBrut (289577),
  • des pages HTML de l'OCR de ces documents.  

Contexte de production

Ce jeu a été produit par les créateurs de l'outil de lexicométrie Gallicagram, pour les besoins de ce dernier.

Une page de contextualisation des corpus de Gallicagram permet de visualiser leur distribution relativement à la dimension temporelle et à celle du droit d'auteur.

Télécharger
  • Métadonnées des monographies (49 Mo)
  • Liste des ARK des monographies du jeu
  • OCR (113 Mo)
Fiche Technique
Date de mise en ligne

2021

Format

HTML Texte

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OCR

Sujets

Documents

Partage
Twitter Facebook Linkedin
Ressources en lien
Utiliser les API de Gallica : l'exemple de Gallicagram

Gallicagram est un outil de lexicométrie conçu pour les chercheurs et portant sur les contenus de Gallica.

R Presse Textes Lexicométrie
API Document de Gallica

À partir d'un document trouvé via l’API de recherche ou de l'interface Gallica, l’API Document permet de récupérer les d'informations (métadonnées) nécessaires à l'exploitation des ressources numér

XML
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube