Texte de presse annoté en entités nommées
Présentation
Ces jeu de données sont constitués de textes extraits de documents des collections de presse traitées durant les projets européens Europeana Newspapers et NewsEye et dont les d’entités nommées ont été annotées.

Contenu du jeu de données
Europeana Newspapers
Ce jeu de vérité terrain contient 207 fichiers annotés de 1000 mots chacun. Ils sont extraits du corpus de presse numérisée de Gallica traité durant le projet européen Europeana Newspapers (cf. fichier Training Data Set_medata.xlsx, 4 titres de presse). La période couverte est 1870-1945, les entités nommées sont au nombre de 14k.
Chaque fichier identifie le document numérique source (identifiant à sept chiffres) :
Newspapers/NER_corpus_validation-oct2014/Extraction_pour_annotation/EXTRACTION_2/0641047/txt/X0000001
Le texte annoté est ensuite fourni (étiquetage IOB, Ramshaw & Marcus, 1995) :
Emmanuel I-PERS
DESOLES I-PERS
de O
LOU O
Directeur O
politique O
BÊ>ÀCTION O
ET O
ADMINISTRATION O
9& O
, O
Rue I-LIEU
du I-LIEU
Pré-Botté I-LIEU
, O
aS O
RENNES I-LIEU
ABONNEMENTS O
...
NewsEye
Ce jeu contient 12k entités annotées parmi 7 titres de presse. Le format est également IOB (voir description).
Contexte de production
Ces corpus ont été produits durant les projets de recherche européens Europeana Newspapers (2012-2015) et Newseye (2018-2022).
Europeana Newspapers
- http://www.europeana-newspapers.eu/
- http://www.bnf.fr/fr/professionnels/projets_europeens/s.projets_europeens_termines.html?first_Art=non#SHDC__Attribute_BlocArticle1BnF
Les autres corpus annotés du projet sont également disponibles (allemand, flamand), ainsi que les classifieurs entraînés (Stanford NER) :
- https://github.com/EuropeanaNewspapers/ner-corpora
- http://lab.kb.nl/dataset/europeana-newspapers-ner#access
Newseye
- "A Multilingual Dataset for Named Entity Recognition, Entity Linking and Stance Detection in Historical Newspapers" (Zenodo)
Exemples d’utilisation
Télécharger
Fiche Technique
Date de mise en ligne2015
FormatTexte
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesNLP GT
SujetsTextes Presse Europeana Newspapers Documents