Dumps Gallica : OCR des monographies
Présentation
Ce jeu de données fournit le texte océrisé des monographies en langue française de la collection numérique de Gallica.
Contenu du jeu de données
Il contient le texte transcrit par OCR des monographies de langue française de Gallica (en ligne à la date de mars 2021), pour lesquelles le texte n'est pas l'objet de conditions d'usage restrictives, soit environ 289 000 ouvrages.
La requête Gallica correspondant aux monographies de langue française avec OCR et en ligne à la date de mars 2021, est la suivante :
https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&exactSearch=true&collapsing=false&version=1.2&query=(dc.language%20all%20%22fre%22)%20and%20(dc.type%20all%20%22monographie%22)%20and%20(gallicapublication_date%3E=%221380%22)%20and%20(ocr.quality%20all%20%22Texte%20disponible%22)%20and%20(indexationdate%3C=%222021/04/01%22)
Elle renvoie environ 377k documents, la différence entre les deux quantités correspondant en majorité au corpus du progamme de numérisation des Indisponibles du XXe siècle, qui est référencé dans Gallica mais dont les textes sont soumis à une restriction d'usage.
Fomat du jeu de données
Le jeu se compose :
- des métadonnées au format CSV des monographies concernées (375546)
- de la liste des identifiants des monographies disposant d'un OCR, accessible via l'API Gallica texteBrut (289577),
- des pages HTML de l'OCR de ces documents.
Contexte de production
Ce jeu a été produit par les créateurs de l'outil de lexicométrie Gallicagram, pour les besoins de ce dernier.
Une page de contextualisation des corpus de Gallicagram permet de visualiser leur distribution relativement à la dimension temporelle et à celle du droit d'auteur.
Télécharger
Fiche Technique
Date de mise en ligne2021
FormatHTML Texte
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOCR
SujetsDocuments