Gallica : documents produits au format TEI
Présentation
Ce jeu de données contient le mode texte des documents de Gallica traités par l’Observatoire de la vie littéraire (Labex OBVIL). Le corpus est en français, issu majoritairement de l’édition du XIXe siècle.
Contenu du jeu de données
Ce jeu contient la conversion au format TEI de l'OCR d’environ 130 000 monographies numérisées de Gallica. De nombreux documents sont des rééditions de textes plus anciens. Tous les documents sont liés à leur notice dans le catalogue général de la BnF et pointent vers leur instance Gallica. Les auteurs sont liés à leur notice de personne du catalogue.
Ces documents sont proposés au téléchargement selon le plan de classement suivant :
- par ordre alphabétique (auteur), de a à z
- par classement Dewey, selon dix classes principales : Littérature; Histoire de la France; Droit; Economie domestique; Vie à la maison; Les arts; Astronomie et sciences connexes; Journalisme, édition; Journaux; Religion; Langues romanes; Français; Philosophie et disciplines connexes
- par siècle de publication (du XVIe au XIXe)
Chaque archive est accompagnée des métadonnées synthétiques des documents qu'elle contient et un fichier récapitulatif (format .csv) donne la liste de tous les documents.
Notes :
- archive alphabétique : certains documents multiauteurs peuvent être classés dans plusieurs lettres
- archive Dewey : les documents sans classement Dewey ne sont pas inclus
- archive siècle : les documents sans date de publication sont classés dans une archive "unknow"
Contexte de production
Ce corpus a été produit durant les travaux du Labex Obvil.
La couche texte de ces documents est exprimée en TEI à partir de l'OCR (format ALTO) des documents Gallica. La qualité de la transcription des textes est donc variable, puisque le texte est issu d’un traitement OCR, sans relecture. La qualité finale dépend donc de l’état de la source, de la langue, mais aussi de la campagne de numérisation. La structuration du texte a été inférée autant que possible de l'information contenue dans les fichiers source ALTO et n’est donc pas toujours de bonne qualité.
Liens de présentation :
- Obvil
- Très grande bibliothèque (site provisoire)
Formats du jeu de données
Ce jeu de données utilise trois formats :
- TEI : le contenu textuel de chaque document est proposé selon un schéma TEI documenté ici. Les fichiers .xml sont nommés d'après l'identifiant numérique du document Gallica
- JSON : les métadonnées des documents contenus dans chaque archive sont exprimées en JSON. Ces métadonnées fournissent notamment l'identifiant ark du document numérique dans Gallica, l'identifiant ark de la notice bibliographique du document, auteur, titre, date de publication
- CSV : les métadonnées de l'ensemble des documents sont exprimées au format .csv
Exemple :
{
"6218903.xml": {
"date": "1859",
"title": "Livre d'images sans images",
"ark": "cb300183877",
"authors": [
{
"death": "1875",
"first_name_or_initials": "Hans Christian ",
"last_name": "Andersen",
"role": "Auteur du texte",
"birth": "1805"
}
]
}
}, ...
- Fichier dans l'archive : 6218903.xml
- Document de Gallica : 6218903
- Notice du catalogue général : cb300183877
Exemples d’utilisation
La « Bibliothèque de l’OBVIL »
La bibliothèque est actuellement riche d’un corpus d’œuvres critiques composé d’essais, d’articles, d’histoires de la littérature, de cours, de préfaces, d’extraits de journaux intimes et de correspondances, publiés entre le xviie et le xxe siècle et représentant plus de cinq cents volumes numérisés.
Elle accueille également les œuvres poétiques et critiques complètes de Guillaume Apollinaire. Elle s’enrichira progressivement d’œuvres numérisées dans le cadre d’autres projets du laboratoire.
« Use and Reuse »
La TGB a notamment été utilisé au sein de l'outil de détection d'emprunts, de réutilisation et d’appropriation dans le cadre du projet « Use and Reuse » (ARTFL, université de Chicago) :
- http://obvil.sorbonne-universite.site/projets/use-and-reuse
- http://anomander.uchicago.edu/text-align/encyc_vs_tgb/
- http://anomander.uchicago.edu/text-align/artfl_vs_tgb/
API et jeux de données en relation
Les systèmes d'identifiants utilisés dans ce jeu sont décrits ici.
Les API Gallica permettent d'accéder aux documents numériques à la source de ce corpus.
Aide
Téléchargement des jeux de données
Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.
Télécharger
Fiche Technique
Date de mise en ligne2018
FormatTEI JSON
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOCR
SujetsTextes Documents