Logo BnF

API et jeux de données

    • API
    • Jeux de données brutes
    • Jeux de données transformées
    • Par source
    • Découvrir api.bnf.fr
    • Documentation
    • Exemples d'utilisations
    • Services
    • Chercheurs
    • Métiers du livre
  • Blog
  1. Vous êtes ici : Accueil
JSON JPEG / JPG GT Documents TEI

Catalogues de vente annotés du projet Datacatalogue


Présentation

Ce jeu de données regroupe des catalogues de vente annotés durant le projet Datacatalogue. Ces documents sont issus des collections numérisées de la BnF et de l'INHA.

Contenu du jeu de données

Le jeu contient deux types de données :

  • pages annotées en vue d'une tâche de macro-segmentation (identification de zones textuelles, titres courants, illustrations...), à l'aide du vocabulaire contrôlé SegmOnto et du schema COLaF (Inria, ALMAnaCH and Multispeech). Cette vérité terrain peut servir à l'entraînement de modèle de détection d'objets (par ex. Yolo) ;
  • zones textuelles annotées en vue d'une tâche de micro-segmentation (identification des différents types de contenu). Cette vérité terrain peut servir à l'entraînement de modèle de détection de structure logique dans un document textuel (par ex. GROBID).

Contexte de production

Il a été produit durant le projet Datacatalogue (voir notamment cette présentation).

Partenaires : INHA, Inria (équipe Almanach), BnF (dpt des Monnaies et médailles, dpt de la Coopération).

Format du jeu de données

Les données annotées sont disponibles selon les formats suivants 

  • macro-segmentation : 750 images de page annotées (Roboflow),
  • micro-segmentation : 30 documents annotés ; macro-segmentation : 620 documents annotés (format TEI, Github)

Documents sources  (713 catalogues)

Fiche Technique
Source des données

Gallica

Date de mise en ligne

2023

Date de dernière mise à jour

2023

Formats techniques

JSON JPEG / JPG

Formats de description

TEI

Technologies

GT

Sujets

Documents

Langue

français

Licence

Conditions d'utilisation des contenus de Gallica

Partage
X Facebook Linkedin
  • © 2020 BnF
  • À propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
X facebook instagram youtube
Image agrandie dans une fenêtre modale