Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Catalogues De Vente Annotés Du Projet Datacatalogue
JSON TEI JPEG / JPG GT Documents

Catalogues de vente annotés du projet Datacatalogue


Présentation

Ce jeu de données regroupe des catalogues de vente annotés durant le projet Datacatalogue. Ces documents sont issus des collections numérisées de la BnF et de l'INHA.

Contenu du jeu de données

Le jeu contient deux types de données :

  • pages annotées en vue d'une tâche de macro-segmentation (identification de zones textuelles, titres courants, illustrations...), à l'aide du vocabulaire contrôlé SegmOnto et du schema COLaF (Inria, ALMAnaCH and Multispeech). Cette vérité terrain peut servir à l'entraînement de modèle de détection d'objets (par ex. Yolo) ;
  • zones textuelles annotées en vue d'une tâche de micro-segmentation (identification des différents types de contenu). Cette vérité terrain peut servir à l'entraînement de modèle de détection de structure logique dans un document textuel (par ex. GROBID).

Contexte de production

Il a été produit durant le projet Datacatalogue (voir notamment cette présentation).

Partenaires : INHA, Inria (équipe Almanach), BnF (dpt des Monnaies et médailles, dpt de la Coopération).

Format du jeu de données

Les données annotées sont disponibles selon les formats suivants 

  • macro-segmentation : 750 images de page annotées (Roboflow),
  • micro-segmentation : 30 documents annotés ; macro-segmentation : 620 documents annotés (format TEI, Github)

Documents sources  (713 catalogues)

Fiche Technique
Date de mise en ligne

2023

Format

JSON TEI JPEG / JPG

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

GT

Sujets

Documents

Partage
Twitter Facebook Linkedin
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube