Texte de presse annoté en entités nommées du projet Europeana Newspapers
Présentation
Ce jeu de données est constitué de textes extraits de documents des collections de presse traitées durant le projet européen Europeana Newspapers et annotés en terme d’entités nommées de type Personne, Lieu et Organisation.

Contenu du jeu de données
Ce jeu de vérité terrain contient 207 fichiers annotés de 1000 mots chacun. Ils sont extraits du corpus de presse numérisée de Gallica traité durant le projet européen Europeana Newspapers (cf. fichier Training Data Set_medata.xlsx). La période couverte est 1870-1945.
Chaque fichier identifie le document numérique source (identifiant à sept chiffres) :
Newspapers/NER_corpus_validation-oct2014/Extraction_pour_annotation/EXTRACTION_2/0641047/txt/X0000001
Le texte annoté est ensuite fourni (étiquetage IOB, Ramshaw & Marcus, 1995) :
Emmanuel I-PERS
DESOLES I-PERS
de O
LOU O
Directeur O
politique O
BÊ>ÀCTION O
ET O
ADMINISTRATION O
9& O
, O
Rue I-LIEU
du I-LIEU
Pré-Botté I-LIEU
, O
aS O
RENNES I-LIEU
ABONNEMENTS O
...
Contexte de production
Ce corpus a été produit durant le projet de recherche européen Europeana Newspapers (2012-2015).
Liens de présentation du projet :
- http://www.europeana-newspapers.eu/
- http://www.bnf.fr/fr/professionnels/projets_europeens/s.projets_europeens_termines.html?first_Art=non#SHDC__Attribute_BlocArticle1BnF
Les autres corpus annotés du projet sont également disponibles (allemand, flamand), ainsi que les classifieurs entraînés (Stanford NER) :
- https://github.com/EuropeanaNewspapers/ner-corpora
- http://lab.kb.nl/dataset/europeana-newspapers-ner#access
Exemples d’utilisation
- https://hal.archives-ouvertes.fr/hal-01082963
- https://link.springer.com/chapter/10.1007/978-3-319-08976-8_2
Aide
Téléchargement des jeux de données
Les jeux de données sont mis à disposition sur un serveur FTP. En fonction du navigateur utilisé, le téléchargement est plus ou moins aisé.
L'accès au serveur FTP se fait sans difficulté avec Internet explorer et Edge. Il est plus aléatoire avec Firefox. Chrome interdit quant à lui l'accès aux serveurs FTP dans ses versions récentes.
L'utilisation de clients FTP comme le logiciel FileZilla est une autre solution pour récupérer ces fichiers.
Télécharger
Fiche Technique
Date de mise en ligne2015
FormatTexte
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesNLP GT
SujetsTextes Presse Europeana Newspapers