Dumps Gallica : OCR des monographies
Présentation
Ce jeu de données fournit le texte océrisé des monographies en langue française de la collection numérique de Gallica.
Contenu du jeu de données
Il contient le texte transcrit par OCR des monographies de langue française de Gallica (en ligne à la date d'avril 2023), pour lesquelles le texte n'est pas l'objet de conditions d'usage restrictives, soit environ 300 000 ouvrages.
La requête Gallica correspondant aux monographies de langue française avec OCR et en ligne à la date du 1er avril 2023, est la suivante :
https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&exactSearch=true&collapsing=false&version=1.2&query=(dc.language%20all%20%22fre%22)%20and%20(dc.type%20all%20%22monographie%22)%20and%20(gallicapublication_date%3E=%221380%22)%20and%20(ocr.quality%20all%20%22Texte%20disponible%22)%20and%20(indexationdate%3C=%222023/04/01%22)
Elle renvoie environ 393 000 documents, la différence correspondant en majorité au corpus du programme de numérisation des Indisponibles du XXe siècle, qui est référencé dans Gallica mais dont les textes sont soumis à une restriction d'usage.
Fomat du jeu de données
Le jeu se compose :
- des métadonnées des monographies concernées, au format .csv,
- de la liste des identifiants ARK des monographies disposant d'un OCR, au format .txt,
- des textes bruts de l'OCR de ces documents, au format .txt.
Le jeu initial a été créé en avril 2021. La fréquence de mise à jour sera annuelle, excepté pour les années 2022-2023.
Contexte de production
Ce jeu a été initialement produit par les créateurs de l'outil de lexicométrie Gallicagram, pour les besoins de ce dernier.
Une page de contextualisation des corpus de Gallicagram permet de visualiser leur distribution relativement à la dimension temporelle et à celle du droit d'auteur.
Télécharger
Fiche Technique
Date de mise en ligne2021, 2023
FormatCSV Texte
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOCR
SujetsDocuments Textes