Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Gallica : Texte Océrisé De Romans Scolaires
Texte OCR Documents

Gallica : texte océrisé de romans scolaires


Présentation

Ce jeu de données regroupe un ensemble de romans scolaires parus sous la Troisième république et mobilisés dans le cadre du projet ModOAP (Modèles et outils d'apprentissage profond). Il inclut le texte océrisés des documents et leurs métadonnées bibliographiques.

Contenu du jeu de données

Le jeu inclut le texte océrisé de 74 romans scolaires parus entre 1835 et 1910 et numérisés dans Gallica.

Contexte de production

Il a été produit durant le projet ModOAP (voir notamment cette présentation).

Format du jeu de données

Les documents sont fournis au format texte et leurs métadonnées bibliographiques  au format Excel.

Télécharger
  • OCR (fichiers ZIP et Excel, environ 15 Mo)
Fiche Technique
Date de mise en ligne

27/11/2023

Format

Texte

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OCR

Sujets

Documents

Partage
Twitter Facebook Linkedin
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube