Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Projet Europeana Newspapers
XML Texte OCR OLR GT Presse

Projet Europeana Newspapers


Lancé en février 2012, le projet européen Europeana Newspapers avait comme objectif de garantir une visibilité augmentée et un meilleur accès aux collections numérisées de la presse européenne.

Présentation

Europeana Newspapers visait au traitement et l’agrégation des journaux libres de droits issus des grands titres de la presse européenne. Ces travaux permettent un accès en ligne à environ 18 millions de pages via le site Europeana. 

En plus de cette diffusion, une série de traitements innovants améliorent les fonctionnalités de recherche dans ces contenus mais aussi l’enrichissement sémantique des données relatives à ces corpus.

Avec environ 3 millions de pages traitées dans le cadre du projet, la BnF vise à optimiser des processus liés à la numérisation, dont l’OCR (reconnaissance optique de caractères), ainsi que de bénéficier des dispositifs de reconnaissance des articles de presse (OLR) ou encore la reconnaissance des entités nommées (REN). Ces traitements proposent une consultation améliorée des contenus. De plus, grâce à la recherche plein-texte avec segmentation des articles, les journaux sont désormais plus finement décrits et bénéficient d’une classification de types de page et de contenu (publicités, petites annonces, tableaux, illustrations, légendes).

Données disponibles

Plusieurs jeux de données produits par le projet sont disponibles :

  • Documents en mode "article" : ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition).
  • Documents en mode OCR : ce jeu de données contient les documents numériques des collections de presse traitées durant le projet avec une reconnaissance du texte (OCR, optical character recognition).
  • Texte des documents : ce jeu de données contient le texte des collections de presse traitées durant le projet Europeana Newpapers.
  • Textes annotés en entités nommées : ce jeu de données est constitué de textes extraits de documents des collections de presse traitées durant le projet et annotés en terme d’entités nommées de type Personne, Lieu et Organisation.
  • Métadonnées quantitatives : Ce jeu de données contient des métadonnées quantitatives relatives aux contenus de la collection de presse traitée durant le projet européen Europeana Newspapers.

Voir aussi

  • le site du projet
  • la collection de titres de presse sur le site Europeana
Accès

http://www.europeana-newspapers.eu/

Fiche Technique
format

XML Texte

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

OCR OLR GT

Sujets

Presse

Contact
gallica@bnf.fr
Partage
twitter facebook Linkedin
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube