HBA : un jeu d'images annotées pour l'analyse de la structure de mise en page d'ouvrages anciens
Présentation
HBA est un jeu de données dédié à l'analyse de la structure de mise en page d'ouvrages anciens. Il constitue une vérité terrain d'images annotées au niveau pixel.
Les figures suivantes illustrent quelques exemples du jeu de données HBA. Chaque pixel est marqué par une couleur qui symbolise le type de contenu correspondant (qu'il s'agisse d'un contenu textuel ou graphique).
Contenu du jeu de données
Les images composant le jeu de données HBA 1.0 ont été collectées à partir de la bibliothèque numérique Gallica. Il est composé de 11 ouvrages (5 manuscrits et 6 imprimés) dans différentes langues et typographies publiés entre les XIIe et XIXe siècles. Il contient respectivement 2 435 et 2 001 pages manuscrites et imprimées. La vérité terrain de l'ensemble de données HBA 1.0 contient 7 580 884 351 pixels annotés.
Id. de l’ouvrage/Titre |
Date de publication |
Nombre de pages |
Type d’ouvrage |
Type d’image |
Langue |
"Plutarchus, Vitæ illustrium virorum" |
1743-1774 |
730 |
Manuscrit |
Couleur |
Latin (copiste Italian) |
"Justinien, Institutes" |
1342 |
486 |
Manuscrit |
Couleur |
Français (au moins deux copistes) |
"Girart d'Amiens, Meliacin ou le Cheval de fust" |
1285 |
350 |
Manuscrit |
Couleur |
Français (au moins trois copistes) |
"Chronique, histoires de la Bible, Vies de saints, Sermons de MAURICE DE SULLY" |
1201-1300 |
813 |
Manuscrit |
Niveaux de gris |
Français |
"Memoire relatif à la carte du Guipuscoa" |
1758 |
56 |
Manuscrit |
Couleur |
Français |
"Il mondo nuovo, del sig. Giov. Giorgini da Jesi" |
1596 |
322 |
Imprim´e |
Couleur |
Italian |
"Manto la Fée, opéra" |
1711 |
64 |
Imprim´e |
Niveaux de gris |
Français (Mennesson) |
"Le Mirouer de la redemption de l'umain lignage" |
1478-1480 |
403 |
Imprim´e |
Niveaux de gris |
Français |
"Cy commencent le Procès de Belial à l'encontre de Jhésus" |
1481 |
341 |
Imprim´e |
Couleur |
Français (Jacques de Teramo) |
"Voyage pittoresque de la Grèce" |
1782-1822 |
440 |
Imprim´e |
Couleur |
Français (Marie-Gabriel-Florent-Auguste de Choiseul-Gouffier) |
"La Chartreuse de Parme" |
1839 |
431 |
Imprim´e |
Couleur |
Français (Stendhal) |
Contexte de production
Ce jeu de donnée a été produit dans le cadre de la première édition de la compétition internationale sur l’analyse d'ouvrages anciens « Historical Book Analysis » (HBA2017). La compétition HBA2017 fournit un protocole d'évaluation pour traiter des problèmes spécifiques liés aux méthodes d’analyse d’images de documents anciens. Il répond à un besoin important dans les compétitions internationales passées en fournissant des outils d'évaluation et de comparaison cohérents des méthodes d'analyse d'images de documents au niveau des pixels. Le but de la compétition HBA2017 consiste à évaluer les méthodes d'analyse d'images de bas niveau qui peuvent être ajustées sur un ensemble limité de données d'apprentissage (i.e. un nombre limité de pages d’un ouvrage avec leur vérité de terrain associée) pour en déduire automatiquement les informations relatives aux pages restantes de l’ouvrage analysé. Une caractéristique clé du corpus expérimental proposé pour la compétition HBA2017 est qu'il est composé d'images qui représentent toutes les pages de livres. De plus, la compétition HBA2017 évalue également les capacités d'adaptation des méthodes d'analyse d'images de bas niveau telles qu'elles sont appliquées à un ensemble de données présentant une grande variété d’ouvrages anciens. Le concours HBA2017 est organisé conjointement avec la 14e conférence internationale sur l'analyse des documents « International Conference on Document Analysis » (ICDAR2017) et le 4e congrès international sur le traitement d’images de documents anciens « International Workshop on Historical Document Imaging and Processing » (HIP2017) à Kyoto, Japon.
En utilisant l'ensemble de données de HBA 1.0, deux tâches ont été évaluées dans le cadre de la compétition HBA2017 : l'une évalue comment les méthodes participantes peuvent discriminer le contenu textuel du contenu graphique au niveau des pixels ; l'autre évalue les capacités de ces méthodes à séparer le contenu textuel selon les polices de caractère (e.g. minuscule, majuscule et italique) au niveau des pixels.
Format du jeu de données
L'ensemble de données de HBA 1.0 est divisé en deux sous-ensembles de données, le premier constitue la base d’échantillons et le second la base d'évaluation. La base d’échantillons se compose de deux ouvrages tandis que la base d'évaluation se compose de neuf ouvrages.
Chaque ensemble de données est composé d'un ensemble d'images d'apprentissage et d'un ensemble d'images de test. L'ensemble des données d’apprentissage contient un nombre réduit de pages, ainsi que leur vérité terrain. Les images d’apprentissage sont représentatives des différents contenus et mises en page de chaque ouvrage. D’autre part, l'ensemble des données de test est composé d'images représentant les pages restantes de chaque ouvrage. La base d’échantillons est fournie afin d'affiner le paramétrage des méthodes participantes (i.e. apprentissage ou test).
Toutes les pages des deux ouvrages sélectionnés pour composer la base d’échantillons, avec leur vérité terrain, sont fournies. Quelques pages sont sélectionnées à partir de chaque ouvrage de la base d’échantillons pour constituer l'ensemble des données d'apprentissage. Ces pages sélectionnées doivent contenir toutes les classes de contenu de l’ouvrage analysé. Les deux ouvrages sélectionnés qui constituent l'ensemble des données de la base d’échantillons sont les Ouvrage 4 et Ouvrage 6. Les neuf ouvrages qui composent le jeu de données de la base d'évaluation sont : Ouvrage 1, Ouvrage 2, Ouvrage 3, Ouvrage 5, Ouvrage 7, Ouvrage 8, Ouvrage 9, Ouvrage 10 et Ouvrage 11.
Seule la vérité terrain des images d'apprentissage des neuf ouvrages de l'ensemble des données de la base d'évaluation a été fournie. Le jeu de données de la base d’échantillons est disponible à partir du lien suivant : http://icdar2017hba.litislab.eu/index.php/evaluation/dataset-division/sample-dataset/. Les données de la base d’évaluation est disponible pour les seuls participants inscrits à l'aide du lien suivant : http://icdar2017hba.litislab.eu/evaluation_dataset/.
Le processus d'annotation ou d’étiquetage de l'ensemble de données de HBA 1.0 a été défini manuellement. La vérité terrain de l'ensemble de données de HBA 1.0 est actuellement disponible au niveau des pixels. La vérité de terrain de chaque pixel a été définie au moyen d'une étiquette indiquant le type de contenu (ou la classe de contenu de la page de l’ouvrage). Différentes étiquettes pour les pixels avec des polices de caractère différentes ont également été attribuées pour évaluer les capacités des méthodes d'analyse d'image à séparer ces polices de caractère.
Le tableau suivant détaille les différentes étiquettes utilisées lors de la saisie de la vérité terrain de l'ensemble de données de HBA 1.0 :
Étiquette de classe |
Description du type de contenu |
1 |
Graphique |
2 |
Corps du texte |
3 |
Texte en majuscule |
4 |
Texte manuscrit |
5 |
Texte en italique |
6 |
Texte de note de bas de page |
Les images des pages d’ouvrages du jeu de données HBA sont au format TIFF.
Les fichiers de vérité terrain et d’images résultantes sont au format TXT. Chaque ligne du fichier de vérité terrain TXT contient les trois valeurs suivantes : les deux coordonnées topologiques du pixel (les positions du pixel dans les axes x et y) et sa classe d'étiquette (représentant le type de contenu dans l’ouvrage). Les coordonnées topologiques des pixels seront fournies pour toutes les images de l'ensemble de données de test afin d'assurer une comparaison équitable des performances des méthodes participantes, quelle que soit la méthode de sélection des pixels utilisée.
Exemple d'utilisation
Fiche Technique
Date de mise en ligne2017
FormatTexte JPEG / JPG
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOLR GT Segmentation
SujetsDocuments