JSON
TEI
JPEG / JPG
GT
Documents
Catalogues de vente annotés du projet Datacatalogue
Présentation
Ce jeu de données regroupe des catalogues de vente annotés durant le projet Datacatalogue. Ces documents sont issus des collections numérisées de la BnF et de l'INHA.
Contenu du jeu de données
Le jeu contient deux types de données :
- pages annotées en vue d'une tâche de macro-segmentation (identification de zones textuelles, titres courants, illustrations...), à l'aide du vocabulaire contrôlé SegmOnto et du schema COLaF (Inria, ALMAnaCH and Multispeech). Cette vérité terrain peut servir à l'entraînement de modèle de détection d'objets (par ex. Yolo) ;
- zones textuelles annotées en vue d'une tâche de micro-segmentation (identification des différents types de contenu). Cette vérité terrain peut servir à l'entraînement de modèle de détection de structure logique dans un document textuel (par ex. GROBID).
Contexte de production
Il a été produit durant le projet Datacatalogue (voir notamment cette présentation).
Partenaires : INHA, Inria (équipe Almanach), BnF (dpt des Monnaies et médailles, dpt de la Coopération).
Format du jeu de données
Les données annotées sont disponibles selon les formats suivants
- macro-segmentation : 750 images de page annotées (Roboflow),
- micro-segmentation : 30 documents annotés ; macro-segmentation : 620 documents annotés (format TEI, Github)
Documents sources (713 catalogues)
Fiche Technique
Date de mise en ligne2023
FormatJSON TEI JPEG / JPG
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesGT
SujetsDocuments