Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Gallica : Texte Océrisé Des Monographies De Langue Française
CSV Texte OCR Documents Textes Lexicométrie

Gallica : texte océrisé des monographies de langue française


Présentation

Ce jeu de données fournit le texte océrisé des monographies en langue française de la collection numérique de Gallica.

Contenu du jeu de données

Il contient le texte transcrit par OCR des monographies de langue française de Gallica (en ligne à la date d'avril 2023), pour lesquelles le texte n'est pas l'objet de conditions d'usage restrictives, soit environ 300 000 ouvrages.

La requête Gallica correspondant aux monographies de langue française avec OCR et en ligne à la date du 1er avril 2023, est la suivante :

https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&exactSearch=true&collapsing=false&version=1.2&query=(dc.language%20all%20%22fre%22)%20and%20(dc.type%20all%20%22monographie%22)%20and%20(gallicapublication_date%3E=%221380%22)%20and%20(ocr.quality%20all%20%22Texte%20disponible%22)%20and%20(indexationdate%3C=%222023/04/01%22)

Elle renvoie environ 393 000 documents, la différence correspondant en majorité au corpus du programme de numérisation des Indisponibles du XXe siècle, qui est référencé dans Gallica mais dont les textes sont soumis à une restriction d'usage.

Format du jeu de données

Le jeu se compose :

  • des métadonnées des monographies concernées, au format .csv,
  • de la liste des identifiants ARK des monographies disposant d'un OCR, au format .txt,
  • des textes bruts de l'OCR de ces documents, au format .txt.  

Le jeu initial a été créé en avril 2021. Une mise à jour a eu lieu en 2023.

Contexte de production

Ce jeu a été initialement produit par les créateurs de l'outil de lexicométrie Gallicagram, pour les besoins de ce dernier.

Une page de contextualisation des corpus de Gallicagram permet de visualiser leur distribution relativement à la dimension temporelle et à celle du droit d'auteur.

Télécharger
  • OCR (fichiers ZIP et CSV, environ 35 Go) sur demande auprès du BnF Datalab
Fiche Technique
Version

V1

Date de mise en ligne

2021, 2023

Fréquence de mise à jour

annuelle

Format

CSV Texte

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OCR

Sujets

Documents Textes Lexicométrie

Contact
datalab@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Utiliser les API de Gallica : l'exemple de Gallicagram

Gallicagram est un outil de lexicométrie conçu pour les chercheurs et portant sur les contenus de Gallica.

R Presse Textes Lexicométrie
API Document de Gallica

À partir d'un document trouvé via l’API de recherche ou de l'interface Gallica, l’API Document permet de récupérer les d'informations (métadonnées) nécessaires à l'exploitation des ressources numér

XML
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube