Lancement de la campagne d'évaluation HIPE-2022 sur la reconnaissance d'entités nommées

La campagne d'évaluation HIPE-2022 (Identifying Historical People, Places and other Entities) vise à mesurer les performances des systèmes de reconnaissance des entités nommées (p. ex. noms de personnes, lieux, organisations) dans des documents historiques multilingues. Organisée par des chercheurs du Digital Humanities Laboratory (DHLAB) de l'EPFL, de l'université de Lausanne, de l'université de Zurich et de l'université de La Rochelle, HIPE-2022 fait partie des “Evaluation Labs" de CLEF 2022.

La série de campagnes d'évaluation HIPE participe des efforts communs des communautés scientifiques du traitement automatique du langage naturel et des humanités numériques pour développer des technologies d’extraction d'informations sur des textes historiques. Pour cette seconde édition, HIPE-2022 propose de confronter les systèmes à plus de langues, à des types de documents variés, et à des typologies d’entités différentes. L'objectif est de développer des systèmes “transférables” d’une langue à l’autre, d’un type de document à l’autre, et d’une période temporelle à l’autre.

HIPE-2022 propose deux tâches :

Reconnaissance et classification des entités nommées
Liaison d'entités

Données

Les jeux de données HIPE-2022 sont basés sur six jeux de données assemblés et préparés pour la campagne, composés de journaux historiques et de commentaires classiques en plusieurs langues et couvrant environ 200 ans. Ces jeux de données proviennent de divers projets européens sur le patrimoine culturel ; certains sont déjà publiés, d'autres le sont pour la première fois pour HIPE-2022.

Tracks et Challenges

Afin de tenir compte des différentes dimensions qui caractérisent HIPE-2022 (tâches, langues, types de documents, typologies d'entités) et de favoriser la recherche sur la transférabilité des systèmes, l’évaluation est organisée autour de “tracks” et “challenges”.

Un “track" est un triplet spécifique composé de [dataset-language-tâche] et un “challenge" est un ensemble prédéfini de tracks (un challenge peut être vu comme une sorte de championnat avec plusieurs tracks).

HIPE-2022 évalue spécifiquement trois challenges :

Multilingual Newspaper Challenge : jeux de données de journaux uniquement, 2 langues minimum ;
Multilingual Classical Commentary Challenge : jeux de données de commentaires classiques uniquement, 3 langues minimum ;
Global Adaptation Challenge : jeux de données incluant deux types de documents, 2 langues minimum.

Site internet de HIPE-2022 : https://hipe-eval.github.io/HIPE-2022/

Inscription (jusqu’au 22 avril 2022) : https://clef2022-labs-registration.dei.unipd.it/

Données et répertoire GitHub HIPE-2022 : https://github.com/hipe-eval/HIPE-2022-data

Guide de participation : https://doi.org/10.5281/zenodo.6045662

Workshop final : durant la conférence CLEF en Septembre 2022 à Bologne, Italie.

Twitter : #HIPE2022 / @clef_initiative / #clef2022