CSV Texte OCR Documents Textes Lexicométrie

Gallica : texte océrisé des monographies de langue française

Présentation

Ce jeu de données fournit le texte océrisé des monographies en langue française de la collection numérique de Gallica.

Contenu du jeu de données

Il contient le texte transcrit par OCR des monographies de langue française de Gallica (en ligne à la date d'avril 2023), pour lesquelles le texte n'est pas l'objet de conditions d'usage restrictives, soit environ 300 000 ouvrages.

La requête Gallica correspondant aux monographies de langue française avec OCR et en ligne à la date du 1er avril 2023, est la suivante :

https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&exactSearch=true&collapsing=false&version=1.2&query=(dc.language%20all%20%22fre%22)%20and%20(dc.type%20all%20%22monographie%22)%20and%20(gallicapublication_date%3E=%221380%22)%20and%20(ocr.quality%20all%20%22Texte%20disponible%22)%20and%20(indexationdate%3C=%222023/04/01%22)

Elle renvoie environ 393 000 documents, la différence correspondant en majorité au corpus du programme de numérisation des Indisponibles du XXe siècle, qui est référencé dans Gallica mais dont les textes sont soumis à une restriction d'usage.

Format du jeu de données

Le jeu se compose :

des métadonnées des monographies concernées, au format .csv,
de la liste des identifiants ARK des monographies disposant d'un OCR, au format .txt,
des textes bruts de l'OCR de ces documents, au format .txt.

Le jeu initial a été créé en avril 2021. Une mise à jour a eu lieu en 2023.

Contexte de production

Ce jeu a été initialement produit par les créateurs de l'outil de lexicométrie Gallicagram, pour les besoins de ce dernier.

Une page de contextualisation des corpus de Gallicagram permet de visualiser leur distribution relativement à la dimension temporelle et à celle du droit d'auteur.

Télécharger

OCR (fichiers ZIP et CSV, environ 35 Go) sur demande auprès du BnF Datalab

Fiche Technique

Source des données

Gallica

Version

Date de mise en ligne

2021, 2023

Fréquence de mise à jour

annuelle

Date de dernière mise à jour

2024

Quantité

289577

Formats techniques

CSV Texte

Technologies

OCR

Sujets

Documents Textes Lexicométrie

Langue

Licence

Conditions d'utilisation des contenus de Gallica

Contact

datalab@bnf.fr

Partage

X Facebook Linkedin