Texte JPEG / JPG OLR GT Segmentation Documents

HBA : un jeu d'images annotées pour l'analyse de la structure de mise en page d'ouvrages anciens

Présentation

HBA est un jeu de données dédié à l'analyse de la structure de mise en page d'ouvrages anciens. Il constitue une vérité terrain d'images annotées au niveau pixel.

Les figures suivantes illustrent quelques exemples du jeu de données HBA. Chaque pixel est marqué par une couleur qui symbolise le type de contenu correspondant (qu'il s'agisse d'un contenu textuel ou graphique).

Contenu du jeu de données

Les images composant le jeu de données HBA 1.0 ont été collectées à partir de la bibliothèque numérique Gallica. Il est composé de 11 ouvrages (5 manuscrits et 6 imprimés) dans différentes langues et typographies publiés entre les XII^e et XIX^e siècles. Il contient respectivement 2 435 et 2 001 pages manuscrites et imprimées. La vérité terrain de l'ensemble de données HBA 1.0 contient 7 580 884 351 pixels annotés.

Id. de l’ouvrage/Titre	Date de publication	Nombre de pages	Type d’ouvrage	Type d’image	Langue
Ouvrage 1 "Plutarchus, Vitæ illustrium virorum"	1743-1774	730	Manuscrit	Couleur	Latin (copiste Italian)
Ouvrage 2 "Justinien, Institutes"	1342	486	Manuscrit	Couleur	Français (au moins deux copistes)
Ouvrage 3 "Girart d'Amiens, Meliacin ou le Cheval de fust"	1285	350	Manuscrit	Couleur	Français (au moins trois copistes)
Ouvrage 4 "Chronique, histoires de la Bible, Vies de saints, Sermons de MAURICE DE SULLY"	1201-1300	813	Manuscrit	Niveaux de gris	Français
Ouvrage 5 "Memoire relatif à la carte du Guipuscoa"	1758	56	Manuscrit	Couleur	Français
Ouvrage 6 "Il mondo nuovo, del sig. Giov. Giorgini da Jesi"	1596	322	Imprim´e	Couleur	Italian
Ouvrage 7 "Manto la Fée, opéra"	1711	64	Imprim´e	Niveaux de gris	Français (Mennesson)
Ouvrage 8 "Le Mirouer de la redemption de l'umain lignage"	1478-1480	403	Imprim´e	Niveaux de gris	Français
Ouvrage 9 "Cy commencent le Procès de Belial à l'encontre de Jhésus"	1481	341	Imprim´e	Couleur	Français (Jacques de Teramo)
Ouvrage 10 "Voyage pittoresque de la Grèce"	1782-1822	440	Imprim´e	Couleur	Français (Marie-Gabriel-Florent-Auguste de Choiseul-Gouffier)
Ouvrage 11 "La Chartreuse de Parme"	1839	431	Imprim´e	Couleur	Français (Stendhal)

Contexte de production

Ce jeu de donnée a été produit dans le cadre de la première édition de la compétition internationale sur l’analyse d'ouvrages anciens « Historical Book Analysis » (HBA2017). La compétition HBA2017 fournit un protocole d'évaluation pour traiter des problèmes spécifiques liés aux méthodes d’analyse d’images de documents anciens. Il répond à un besoin important dans les compétitions internationales passées en fournissant des outils d'évaluation et de comparaison cohérents des méthodes d'analyse d'images de documents au niveau des pixels. Le but de la compétition HBA2017 consiste à évaluer les méthodes d'analyse d'images de bas niveau qui peuvent être ajustées sur un ensemble limité de données d'apprentissage (i.e. un nombre limité de pages d’un ouvrage avec leur vérité de terrain associée) pour en déduire automatiquement les informations relatives aux pages restantes de l’ouvrage analysé. Une caractéristique clé du corpus expérimental proposé pour la compétition HBA2017 est qu'il est composé d'images qui représentent toutes les pages de livres. De plus, la compétition HBA2017 évalue également les capacités d'adaptation des méthodes d'analyse d'images de bas niveau telles qu'elles sont appliquées à un ensemble de données présentant une grande variété d’ouvrages anciens. Le concours HBA2017 est organisé conjointement avec la 14e conférence internationale sur l'analyse des documents « International Conference on Document Analysis » (ICDAR2017) et le 4e congrès international sur le traitement d’images de documents anciens « International Workshop on Historical Document Imaging and Processing » (HIP2017) à Kyoto, Japon.

En utilisant l'ensemble de données de HBA 1.0, deux tâches ont été évaluées dans le cadre de la compétition HBA2017 : l'une évalue comment les méthodes participantes peuvent discriminer le contenu textuel du contenu graphique au niveau des pixels ; l'autre évalue les capacités de ces méthodes à séparer le contenu textuel selon les polices de caractère (e.g. minuscule, majuscule et italique) au niveau des pixels.

Format du jeu de données

L'ensemble de données de HBA 1.0 est divisé en deux sous-ensembles de données, le premier constitue la base d’échantillons et le second la base d'évaluation. La base d’échantillons se compose de deux ouvrages tandis que la base d'évaluation se compose de neuf ouvrages.

Chaque ensemble de données est composé d'un ensemble d'images d'apprentissage et d'un ensemble d'images de test. L'ensemble des données d’apprentissage contient un nombre réduit de pages, ainsi que leur vérité terrain. Les images d’apprentissage sont représentatives des différents contenus et mises en page de chaque ouvrage. D’autre part, l'ensemble des données de test est composé d'images représentant les pages restantes de chaque ouvrage. La base d’échantillons est fournie afin d'affiner le paramétrage des méthodes participantes (i.e. apprentissage ou test).

Toutes les pages des deux ouvrages sélectionnés pour composer la base d’échantillons, avec leur vérité terrain, sont fournies. Quelques pages sont sélectionnées à partir de chaque ouvrage de la base d’échantillons pour constituer l'ensemble des données d'apprentissage. Ces pages sélectionnées doivent contenir toutes les classes de contenu de l’ouvrage analysé. Les deux ouvrages sélectionnés qui constituent l'ensemble des données de la base d’échantillons sont les Ouvrage 4 et Ouvrage 6. Les neuf ouvrages qui composent le jeu de données de la base d'évaluation sont : Ouvrage 1, Ouvrage 2, Ouvrage 3, Ouvrage 5, Ouvrage 7, Ouvrage 8, Ouvrage 9, Ouvrage 10 et Ouvrage 11.

Seule la vérité terrain des images d'apprentissage des neuf ouvrages de l'ensemble des données de la base d'évaluation a été fournie. Le jeu de données de la base d’échantillons est disponible à partir du lien suivant : http://icdar2017hba.litislab.eu/index.php/evaluation/dataset-division/sample-dataset/. Les données de la base d’évaluation est disponible pour les seuls participants inscrits à l'aide du lien suivant : http://icdar2017hba.litislab.eu/evaluation_dataset/.

Le processus d'annotation ou d’étiquetage de l'ensemble de données de HBA 1.0 a été défini manuellement. La vérité terrain de l'ensemble de données de HBA 1.0 est actuellement disponible au niveau des pixels. La vérité de terrain de chaque pixel a été définie au moyen d'une étiquette indiquant le type de contenu (ou la classe de contenu de la page de l’ouvrage). Différentes étiquettes pour les pixels avec des polices de caractère différentes ont également été attribuées pour évaluer les capacités des méthodes d'analyse d'image à séparer ces polices de caractère.

Le tableau suivant détaille les différentes étiquettes utilisées lors de la saisie de la vérité terrain de l'ensemble de données de HBA 1.0 :

Étiquette de classe	Description du type de contenu
1	Graphique
2	Corps du texte
3	Texte en majuscule
4	Texte manuscrit
5	Texte en italique
6	Texte de note de bas de page

Les images des pages d’ouvrages du jeu de données HBA sont au format TIFF.

Les fichiers de vérité terrain et d’images résultantes sont au format TXT. Chaque ligne du fichier de vérité terrain TXT contient les trois valeurs suivantes : les deux coordonnées topologiques du pixel (les positions du pixel dans les axes x et y) et sa classe d'étiquette (représentant le type de contenu dans l’ouvrage). Les coordonnées topologiques des pixels seront fournies pour toutes les images de l'ensemble de données de test afin d'assurer une comparaison équitable des performances des méthodes participantes, quelle que soit la méthode de sélection des pixels utilisée.

Exemple d'utilisation

http://icdar2017hba.litislab.eu/

https://dl.acm.org/citation.cfm?id=3151528

Fiche Technique

Date de mise en ligne

2017

Date de dernière mise à jour

2021

Quantité

11 ouvrages, 4436 pages, 7 580 884 351 pixels annotés

Formats techniques

Texte JPEG / JPG

Technologies

OLR GT Segmentation

Sujets

Documents

Langue

Latin, français et italien

Licence

Conditions d'utilisation des contenus de Gallica

Contact

icdar2017hba@litislab.eu

Partage

Twitter Facebook Linkedin

Ressources en lien

Documents de presse numérisés en mode « article »

Ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition).

METS ALTO OLR GT OCR Textes Presse Documents