Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Texte De Presse Annoté En Entités Nommées
Texte NLP GT Textes Presse Europeana Newspapers Documents

Texte de presse annoté en entités nommées


Présentation

Ces jeu de données sont constitués de textes extraits de documents des collections de presse traitées durant les projets européens Europeana Newspapers et NewsEye et dont les d’entités nommées ont été annotées. 

 

tags-ner_0

Contenu du jeu de données

Europeana Newspapers

Ce jeu de vérité terrain contient 207 fichiers annotés de 1000 mots chacun. Ils sont extraits du corpus de presse numérisée de Gallica traité durant le projet européen Europeana Newspapers (cf. fichier Training Data Set_medata.xlsx, 4 titres de presse). La période couverte est 1870-1945, les entités nommées sont au nombre de 14k.

Chaque fichier identifie le document numérique source (identifiant à sept chiffres) :

Newspapers/NER_corpus_validation-oct2014/Extraction_pour_annotation/EXTRACTION_2/0641047/txt/X0000001

Le texte annoté est ensuite fourni (étiquetage IOB, Ramshaw & Marcus, 1995) :

Emmanuel I-PERS
DESOLES I-PERS
de O
LOU O
Directeur O
politique O
BÊ>ÀCTION O
ET O
ADMINISTRATION O
9& O
, O
Rue I-LIEU
du I-LIEU
Pré-Botté I-LIEU
, O
aS O
RENNES I-LIEU
ABONNEMENTS O
...

NewsEye

Ce jeu contient 12k entités annotées parmi 7 titres de presse. Le format est également IOB (voir description).

Contexte de production

Ces corpus ont été produits durant les projets de recherche européens Europeana Newspapers (2012-2015) et Newseye (2018-2022).

Europeana Newspapers

  • http://www.europeana-newspapers.eu/
  • http://www.bnf.fr/fr/professionnels/projets_europeens/s.projets_europeens_termines.html?first_Art=non#SHDC__Attribute_BlocArticle1BnF

Les autres corpus annotés du projet sont également disponibles (allemand, flamand), ainsi que les classifieurs entraînés (Stanford NER) :

  • https://github.com/EuropeanaNewspapers/ner-corpora
  • http://lab.kb.nl/dataset/europeana-newspapers-ner#access

Newseye

  • "A Multilingual Dataset for Named Entity Recognition, Entity Linking and Stance Detection in Historical Newspapers" (Zenodo)

Exemples d’utilisation

  • https://hal.archives-ouvertes.fr/hal-01082963
  • https://link.springer.com/chapter/10.1007/978-3-319-08976-8_2
Télécharger
  • Textes annotés et modèle (Europeana Newspapers, 50 Mo)
  • Textes annotés (Newseye, 3 Mo)
Fiche Technique
Date de mise en ligne

2015

Format

Texte

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

NLP GT

Sujets

Textes Presse Europeana Newspapers Documents

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Projet Europeana Newspapers

Lancé en février 2012, le projet européen Europeana Newspapers avait comme objectif de garantir une visibilité augmentée et un meilleur accès aux collections numérisées de la presse européenne.

XML Texte OCR OLR GT Presse
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube