Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. HBA : Un Jeu D'images Annotées Pour L'analyse De La Structure De Mise En Page D'ouvrages Anciens
Texte JPEG / JPG OLR GT Segmentation Documents

HBA : un jeu d'images annotées pour l'analyse de la structure de mise en page d'ouvrages anciens


Présentation

HBA est un jeu de données dédié à l'analyse de la structure de mise en page d'ouvrages anciens. Il constitue une vérité terrain d'images annotées au niveau pixel.

Les figures suivantes illustrent quelques exemples du jeu de données HBA. Chaque pixel est marqué par une couleur qui symbolise le type de contenu correspondant (qu'il s'agisse d'un contenu textuel ou graphique).

hba1
hba4
hba3
hba2

 

 

 

 

Contenu du jeu de données

Les images composant le jeu de données HBA 1.0 ont été collectées à partir de la bibliothèque numérique Gallica.  Il est composé de 11 ouvrages (5 manuscrits et 6 imprimés) dans différentes langues et typographies publiés entre les XIIe et XIXe siècles. Il contient respectivement 2 435 et 2 001 pages manuscrites et imprimées. La vérité terrain de l'ensemble de données HBA 1.0 contient 7 580 884 351 pixels annotés.

Id. de l’ouvrage/Titre

Date de publication

Nombre

de pages

Type

d’ouvrage

Type

d’image

Langue

Ouvrage 1

"Plutarchus, Vitæ illustrium virorum"

1743-1774

730

Manuscrit

Couleur

Latin

(copiste Italian)

Ouvrage 2

"Justinien, Institutes"

1342

486

Manuscrit

Couleur

Français (au moins deux copistes)

Ouvrage 3

"Girart d'Amiens, Meliacin ou le Cheval de fust"

1285

350

Manuscrit

Couleur

Français (au moins trois copistes)

Ouvrage 4

"Chronique, histoires de la Bible, Vies de saints, Sermons de MAURICE DE SULLY"

1201-1300

813

Manuscrit

Niveaux de gris

Français

Ouvrage 5

"Memoire relatif à la carte du Guipuscoa"

1758

56

Manuscrit

Couleur

Français

Ouvrage 6

"Il mondo nuovo, del sig. Giov. Giorgini da Jesi"

1596

322

Imprim´e

Couleur

Italian

Ouvrage 7

"Manto la Fée, opéra"

1711

64

Imprim´e

Niveaux de gris

Français (Mennesson)

Ouvrage 8

"Le Mirouer de la redemption de l'umain lignage"

1478-1480

403

Imprim´e

Niveaux de gris

Français

Ouvrage 9

"Cy commencent le Procès de Belial à l'encontre de Jhésus"

1481

341

Imprim´e

Couleur

Français (Jacques de Teramo)

Ouvrage 10

"Voyage pittoresque de la Grèce"

1782-1822

440

Imprim´e

Couleur

Français (Marie-Gabriel-Florent-Auguste de Choiseul-Gouffier)

Ouvrage 11

"La Chartreuse de Parme"

1839

431

Imprim´e

Couleur

Français (Stendhal)

Contexte de production

Ce jeu de donnée a été produit dans le cadre de la première édition de la compétition internationale sur l’analyse d'ouvrages anciens « Historical Book Analysis » (HBA2017). La compétition HBA2017 fournit un protocole d'évaluation pour traiter des problèmes spécifiques liés aux méthodes d’analyse d’images de documents anciens. Il répond à un besoin important dans les compétitions internationales passées en fournissant des outils d'évaluation et de comparaison cohérents des méthodes d'analyse d'images de documents au niveau des pixels. Le but de la compétition HBA2017 consiste à évaluer les méthodes d'analyse d'images de bas niveau qui peuvent être ajustées sur un ensemble limité de données d'apprentissage (i.e. un nombre limité de pages d’un ouvrage avec leur vérité de terrain associée) pour en déduire automatiquement les informations relatives aux pages restantes de l’ouvrage analysé. Une caractéristique clé du corpus expérimental proposé pour la compétition HBA2017 est qu'il est composé d'images qui représentent toutes les pages de livres. De plus, la compétition HBA2017 évalue également les capacités d'adaptation des méthodes d'analyse d'images de bas niveau telles qu'elles sont appliquées à un ensemble de données présentant une grande variété d’ouvrages anciens. Le concours HBA2017 est organisé conjointement avec la 14e conférence internationale sur l'analyse des documents « International Conference on Document Analysis » (ICDAR2017) et le 4e congrès international sur le traitement d’images de documents anciens « International Workshop on Historical Document Imaging and Processing » (HIP2017) à Kyoto, Japon.

En utilisant l'ensemble de données de HBA 1.0, deux tâches ont été évaluées dans le cadre de la compétition HBA2017 : l'une évalue comment les méthodes participantes peuvent discriminer le contenu textuel du contenu graphique au niveau des pixels ; l'autre évalue les capacités de ces méthodes à séparer le contenu textuel selon les polices de caractère (e.g. minuscule, majuscule et italique) au niveau des pixels.

Format du jeu de données

L'ensemble de données de HBA 1.0 est divisé en deux sous-ensembles de données, le premier constitue la base d’échantillons et le second la base d'évaluation. La base d’échantillons se compose de deux ouvrages tandis que la base d'évaluation se compose de neuf ouvrages.

Chaque ensemble de données est composé d'un ensemble d'images d'apprentissage et d'un ensemble d'images de test. L'ensemble des données d’apprentissage contient un nombre réduit de pages, ainsi que leur vérité terrain. Les images d’apprentissage sont représentatives des différents contenus et mises en page de chaque ouvrage. D’autre part, l'ensemble des données de test est composé d'images représentant les pages restantes de chaque ouvrage. La base d’échantillons est fournie afin d'affiner le paramétrage des méthodes participantes (i.e. apprentissage ou test).

Toutes les pages des deux ouvrages sélectionnés pour composer la base d’échantillons, avec leur vérité terrain, sont fournies. Quelques pages sont sélectionnées à partir de chaque ouvrage de la base d’échantillons pour constituer l'ensemble des données d'apprentissage. Ces pages sélectionnées doivent contenir toutes les classes de contenu de l’ouvrage analysé. Les deux ouvrages sélectionnés qui constituent l'ensemble des données de la base d’échantillons sont les Ouvrage 4 et Ouvrage 6. Les neuf ouvrages qui composent le jeu de données de la base d'évaluation sont : Ouvrage 1, Ouvrage 2, Ouvrage 3, Ouvrage 5, Ouvrage 7, Ouvrage 8, Ouvrage 9, Ouvrage 10 et Ouvrage 11.

Seule la vérité terrain des images d'apprentissage des neuf ouvrages de l'ensemble des données de la base d'évaluation a été fournie. Le jeu de données de la base d’échantillons est disponible à partir du lien suivant : http://icdar2017hba.litislab.eu/index.php/evaluation/dataset-division/sample-dataset/. Les données de la base d’évaluation est disponible pour les seuls participants inscrits à l'aide du lien suivant : http://icdar2017hba.litislab.eu/evaluation_dataset/.

Le processus d'annotation ou d’étiquetage de l'ensemble de données de HBA 1.0 a été défini manuellement. La vérité terrain de l'ensemble de données de HBA 1.0 est actuellement disponible au niveau des pixels. La vérité de terrain de chaque pixel a été définie au moyen d'une étiquette indiquant le type de contenu (ou la classe de contenu de la page de l’ouvrage). Différentes étiquettes pour les pixels avec des polices de caractère différentes ont également été attribuées pour évaluer les capacités des méthodes d'analyse d'image à séparer ces polices de caractère.

Le tableau suivant détaille les différentes étiquettes utilisées lors de la saisie de la vérité terrain de l'ensemble de données de HBA 1.0 :

Étiquette de classe

Description du type de contenu

1

Graphique

2

Corps du texte

3

Texte en majuscule

4

Texte manuscrit

5

Texte en italique

6

Texte de note de bas de page

Les images des pages d’ouvrages du jeu de données HBA sont au format TIFF.

Les fichiers de vérité terrain et d’images résultantes sont au format TXT. Chaque ligne du fichier de vérité terrain TXT contient les trois valeurs suivantes : les deux coordonnées topologiques du pixel (les positions du pixel dans les axes x et y) et sa classe d'étiquette (représentant le type de contenu dans l’ouvrage). Les coordonnées topologiques des pixels seront fournies pour toutes les images de l'ensemble de données de test afin d'assurer une comparaison équitable des performances des méthodes participantes, quelle que soit la méthode de sélection des pixels utilisée.

Exemple d'utilisation

http://icdar2017hba.litislab.eu/

https://dl.acm.org/citation.cfm?id=3151528

Fiche Technique
Date de mise en ligne

2017

Format

Texte JPEG / JPG

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OLR GT Segmentation

Sujets

Documents

Contact
icdar2017hba@litislab.eu 
Partage
Twitter Facebook Linkedin
Ressources en lien
Documents de presse numérisés en mode « article »

Ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition).

METS ALTO OLR GT OCR Textes Presse Documents
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube