JSON OCR Textes Documents TEI

Gallica : documents produits au format TEI

Présentation

Ce jeu de données contient le mode texte des documents de Gallica traités par l’Observatoire de la vie littéraire (Labex OBVIL). Le corpus est en français, issu majoritairement de l’édition du XIXe siècle.

Contenu du jeu de données

Ce jeu contient la conversion au format TEI de l'OCR d’environ 130 000 monographies numérisées de Gallica. De nombreux documents sont des rééditions de textes plus anciens. Tous les documents sont liés à leur notice dans le catalogue général de la BnF et pointent vers leur instance Gallica. Les auteurs sont liés à leur notice de personne du catalogue.

Ces documents sont proposés au téléchargement selon le plan de classement suivant :

par ordre alphabétique (auteur), de a à z
par classement Dewey, selon dix classes principales : Littérature; Histoire de la France; Droit; Economie domestique; Vie à la maison; Les arts; Astronomie et sciences connexes; Journalisme, édition; Journaux; Religion; Langues romanes; Français; Philosophie et disciplines connexes
par siècle de publication (du XVIe au XIXe)

Chaque archive est accompagnée des métadonnées synthétiques des documents qu'elle contient et un fichier récapitulatif (format .csv) donne la liste de tous les documents.

Notes :

archive alphabétique : certains documents multiauteurs peuvent être classés dans plusieurs lettres
archive Dewey : les documents sans classement Dewey ne sont pas inclus
archive siècle : les documents sans date de publication sont classés dans une archive "unknow"

Contexte de production

Ce corpus a été produit durant les travaux du Labex Obvil.

La couche texte de ces documents est exprimée en TEI à partir de l'OCR (format ALTO) des documents Gallica. La qualité de la transcription des textes est donc variable, puisque le texte est issu d’un traitement OCR, sans relecture. La qualité finale dépend donc de l’état de la source, de la langue, mais aussi de la campagne de numérisation. La structuration du texte a été inférée autant que possible de l'information contenue dans les fichiers source ALTO et n’est donc pas toujours de bonne qualité.

Liens de présentation :

Obvil
Très grande bibliothèque (site provisoire)

Formats du jeu de données

Ce jeu de données utilise trois formats :

TEI : le contenu textuel de chaque document est proposé selon un schéma TEI documenté ici. Les fichiers .xml sont nommés d'après l'identifiant numérique du document Gallica
JSON : les métadonnées des documents contenus dans chaque archive sont exprimées en JSON. Ces métadonnées fournissent notamment l'identifiant ark du document numérique dans Gallica, l'identifiant ark de la notice bibliographique du document, auteur, titre, date de publication
CSV : les métadonnées de l'ensemble des documents sont exprimées au format .csv

Exemple :

{
        "6218903.xml": {
            "date": "1859", 
            "title": "Livre d'images sans images", 
            "ark": "cb300183877", 
            "authors": [
                {
                    "death": "1875", 
                    "first_name_or_initials": "Hans Christian ", 
                    "last_name": "Andersen", 
                    "role": "Auteur du texte", 
                    "birth": "1805"
                }
            ]
        }
    }, ...

Fichier dans l'archive : 6218903.xml
Document de Gallica : 6218903
Notice du catalogue général : cb300183877

Exemples d’utilisation

La « Bibliothèque de l’OBVIL »

La bibliothèque est actuellement riche d’un corpus d’œuvres critiques composé d’essais, d’articles, d’histoires de la littérature, de cours, de préfaces, d’extraits de journaux intimes et de correspondances, publiés entre le xviie et le xxe siècle et représentant plus de cinq cents volumes numérisés.

Elle accueille également les œuvres poétiques et critiques complètes de Guillaume Apollinaire. Elle s’enrichira progressivement d’œuvres numérisées dans le cadre d’autres projets du laboratoire.

« Use and Reuse »

La TGB a notamment été utilisé au sein de l'outil de détection d'emprunts, de réutilisation et d’appropriation dans le cadre du projet « Use and Reuse » (ARTFL, université de Chicago) :

API et jeux de données en relation

Les systèmes d'identifiants utilisés dans ce jeu sont décrits ici.

Les API Gallica permettent d'accéder aux documents numériques à la source de ce corpus.

Aide

Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger

Fiche Technique

Source des données

Gallica

Date de mise en ligne

2018

Date de dernière mise à jour

2024

Quantité

128 000 monographies

Formats techniques

JSON

Formats de description

TEI

Technologies

OCR

Sujets

Textes Documents

Langue

Français

Licence

Conditions d'utilisation des contenus de Gallica

Contact

jean-philippe.moreux@bnf.fr

Partage

X Facebook Linkedin