Texte
OCR
Documents
Gallica : texte océrisé de romans scolaires
Présentation
Ce jeu de données regroupe un ensemble de romans scolaires parus sous la Troisième république et mobilisés dans le cadre du projet ModOAP (Modèles et outils d'apprentissage profond). Il inclut le texte océrisés des documents et leurs métadonnées bibliographiques.
Contenu du jeu de données
Le jeu inclut le texte océrisé de 74 romans scolaires parus entre 1835 et 1910 et numérisés dans Gallica.
Contexte de production
Il a été produit durant le projet ModOAP (voir notamment cette présentation).
Format du jeu de données
Les documents sont fournis au format texte et leurs métadonnées bibliographiques au format Excel.
Télécharger
Fiche Technique
Date de mise en ligne27/11/2023
FormatTexte
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOCR
SujetsDocuments