Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Gallica : Documents Produits Au Format TEI
TEI JSON OCR Textes Documents

Gallica : documents produits au format TEI


Présentation

Ce jeu de données contient le mode texte des documents de Gallica traités par l’Observatoire de la vie littéraire (Labex OBVIL). Le corpus est en français, issu majoritairement de l’édition du XIXe siècle.

 

tgb_0

 

Contenu du jeu de données

Ce jeu contient la conversion au format TEI de l'OCR d’environ 130 000 monographies numérisées de Gallica. De nombreux documents sont des rééditions de textes plus anciens. Tous les documents sont liés à leur notice dans le catalogue général de la BnF et pointent vers leur instance Gallica. Les auteurs sont liés à leur notice de personne du catalogue.

Ces documents sont proposés au téléchargement selon le plan de classement suivant :

  • par ordre alphabétique (auteur), de a à z
  • par classement Dewey, selon dix classes principales : Littérature; Histoire de la France; Droit; Economie domestique; Vie à la maison; Les arts; Astronomie et sciences connexes; Journalisme, édition; Journaux; Religion; Langues romanes; Français; Philosophie et disciplines connexes
  • par siècle de publication (du XVIe au XIXe)

Chaque archive est accompagnée des métadonnées synthétiques des documents qu'elle contient et un fichier récapitulatif (format .csv) donne la liste de tous les documents.

Notes :

  • archive alphabétique : certains documents multiauteurs peuvent être classés dans plusieurs lettres
  • archive Dewey : les documents sans classement Dewey ne sont pas inclus
  • archive siècle : les documents sans date de publication sont classés dans une archive "unknow"

Contexte de production

Ce corpus a été produit durant les travaux du Labex Obvil.

La couche texte de ces documents est exprimée en TEI à partir de l'OCR (format ALTO) des documents Gallica. La qualité de la transcription des textes est donc variable, puisque le texte est issu d’un traitement OCR, sans relecture. La qualité finale dépend donc de l’état de la source, de la langue, mais aussi de la campagne de numérisation. La structuration du texte a été inférée autant que possible de l'information contenue dans les fichiers source ALTO et n’est donc pas toujours de bonne qualité.
 

Liens de présentation :

  • Obvil
  • Très grande bibliothèque (site provisoire) 

 

Formats du jeu de données

Ce jeu de données utilise trois formats :

  • TEI : le contenu textuel de chaque document est proposé selon un schéma TEI documenté ici. Les fichiers .xml sont nommés d'après l'identifiant numérique du document Gallica
  • JSON : les métadonnées des documents contenus dans chaque archive sont exprimées en JSON. Ces métadonnées fournissent notamment l'identifiant ark du document numérique dans Gallica, l'identifiant ark de la notice bibliographique du document, auteur, titre, date de publication
  • CSV : les métadonnées de l'ensemble des documents sont exprimées au format .csv

Exemple :

{
        "6218903.xml": {
            "date": "1859", 
            "title": "Livre d'images sans images", 
            "ark": "cb300183877", 
            "authors": [
                {
                    "death": "1875", 
                    "first_name_or_initials": "Hans Christian ", 
                    "last_name": "Andersen", 
                    "role": "Auteur du texte", 
                    "birth": "1805"
                }
            ]
        }
    }, ...
 
  • Fichier dans l'archive : 6218903.xml
  • Document de Gallica : 6218903
  • Notice du catalogue général : cb300183877

Exemples d’utilisation

La « Bibliothèque de l’OBVIL »

La bibliothèque est actuellement riche d’un corpus d’œuvres critiques composé d’essais, d’articles, d’histoires de la littérature, de cours, de préfaces, d’extraits de journaux intimes et de correspondances, publiés entre le xviie et le xxe siècle et représentant plus de cinq cents volumes numérisés.

Elle accueille également les œuvres poétiques et critiques complètes de Guillaume Apollinaire. Elle s’enrichira progressivement d’œuvres numérisées dans le cadre d’autres projets du laboratoire.

« Use and Reuse »

La TGB a notamment été utilisé au sein de l'outil de détection d'emprunts, de réutilisation et d’appropriation dans le cadre du projet « Use and Reuse » (ARTFL, université de Chicago) :

  • http://obvil.sorbonne-universite.site/projets/use-and-reuse
  • http://anomander.uchicago.edu/text-align/encyc_vs_tgb/
  • http://anomander.uchicago.edu/text-align/artfl_vs_tgb/

API et jeux de données en relation

Les systèmes d'identifiants utilisés dans ce jeu sont décrits ici.

Les API Gallica permettent d'accéder aux documents numériques à la source de ce corpus.

 

Aide


Téléchargement des jeux de données

Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.

Télécharger
  • Métadonnées (CSV et Excel, 25 Mo)
  • Fichiers JSON et TEI (50 Go)
Fiche Technique
Date de mise en ligne

2018

Format

TEI JSON

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OCR

Sujets

Textes Documents

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube