Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • Catalogue général de la BnF
    • data.bnf.fr
    • Dépôt légal du Web
    • Répertoire du Catalogue collectif de France (CCFr)
    • Mandragore
    • Catalogue général des manuscrits (CGM / CCFr)
    • Base Patrimoine (CCFr)
    • Répertoire des manuscrits littéraires français du XXème siècle (Palme)
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Texte De Presse Annoté En Entités Nommées Du Projet Europeana Newspapers
Texte Textes Presse Europeana Newspapers

Texte de presse annoté en entités nommées du projet Europeana Newspapers


Présentation

Ce jeu de données est constitué de textes extraits de documents des collections de presse traitées durant le projet européen Europeana Newspapers et annotés en terme d’entités nommées de type Personne, Lieu et Organisation.

 

tags-ner_0

Contenu du jeu de données

Ce jeu de vérité terrain contient 207 fichiers annotés de 1000 mots chacun. Ils sont extraits du corpus de presse numérisée de Gallica traité durant le projet européen Europeana Newspapers (cf. fichier Training Data Set_medata.xlsx). La période couverte est 1870-1945.

Chaque fichier identifie le document numérique source (identifiant à sept chiffres) :

Newspapers/NER_corpus_validation-oct2014/Extraction_pour_annotation/EXTRACTION_2/0641047/txt/X0000001

Le texte annoté est ensuite fourni (étiquetage IOB, Ramshaw & Marcus, 1995) :
 

Emmanuel I-PERS
DESOLES I-PERS
de O
LOU O
Directeur O
politique O
BÊ>ÀCTION O
ET O
ADMINISTRATION O
9& O
, O
Rue I-LIEU
du I-LIEU
Pré-Botté I-LIEU
, O
aS O
RENNES I-LIEU
ABONNEMENTS O
...

 

Contexte de production

Ce corpus a été produit durant le projet de recherche européen Europeana Newspapers (2012-2015).

Liens de présentation du projet :

  • http://www.europeana-newspapers.eu/
  • http://www.bnf.fr/fr/professionnels/projets_europeens/s.projets_europeens_termines.html?first_Art=non#SHDC__Attribute_BlocArticle1BnF

Les autres corpus annotés du projet sont également disponibles (allemand, flamand), ainsi que les classifieurs entraînés (Stanford NER) :

  • https://github.com/EuropeanaNewspapers/ner-corpora
  • http://lab.kb.nl/dataset/europeana-newspapers-ner#access

Formats

Texte, étiquetage IOB (lieu, personne, organisation)

Exemples d’utilisation

  • https://hal.archives-ouvertes.fr/hal-01082963
  • https://link.springer.com/chapter/10.1007/978-3-319-08976-8_2

API et jeux de données en relation

Jeux de données

Les jeux de données suivants sont issus du même projet Europeana Newspapers :

  • Corpus texte : le texte des collections de presse traitées durant le projet européen Europeana Newspapers.
  • Corpus "OLR" : les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance de la mise en page (OLR, optical layout recognition). Cette reconnaissance conduit à une description fine des contenus de chaque fascicule (article, section, titre d’article, légende de figure, etc.)
  • Corpus "OCR" : les documents numériques des collections de presse traitées durant le projet européen Europeana Newspapers avec une reconnaissance du texte (OCR, optical character recognition)
  • Métadonnées quantitatives de la presse ancienne : un jeu de métadonnées quantitatives (nombre de pages, mots, articles, illustrations, etc.) extraites des 800 000 pages du corpus OLR du projet Europeana Newspapers.
Télécharger
  • Jeu de données (650 ko)
Fiche Technique
Date de mise en ligne

2015

Format

Texte

Licence

Conditions d'utilisation des contenus de Gallica

Sujets

Textes Presse Europeana Newspapers

Contact
jean-philippe.moreux@bnf.fr
Partage
Twitter Facebook Linkedin
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité
  • DCAT
twitter facebook instagram youtube