Projet Europeana Newspapers
Lancé en février 2012, le projet européen Europeana Newspapers avait comme objectif de garantir une visibilité augmentée et un meilleur accès aux collections numérisées de la presse européenne.
Présentation
Europeana Newspapers visait au traitement et l’agrégation des journaux libres de droits issus des grands titres de la presse européenne. Ces travaux permettent un accès en ligne à environ 18 millions de pages via le site Europeana.
En plus de cette diffusion, une série de traitements innovants améliorent les fonctionnalités de recherche dans ces contenus mais aussi l’enrichissement sémantique des données relatives à ces corpus.
Avec environ 3 millions de pages traitées dans le cadre du projet, la BnF vise à optimiser des processus liés à la numérisation, dont l’OCR (reconnaissance optique de caractères), ainsi que de bénéficier des dispositifs de reconnaissance des articles de presse (OLR) ou encore la reconnaissance des entités nommées (REN). Ces traitements proposent une consultation améliorée des contenus. De plus, grâce à la recherche plein-texte avec segmentation des articles, les journaux sont désormais plus finement décrits et bénéficient d’une classification de types de page et de contenu (publicités, petites annonces, tableaux, illustrations, légendes).
Données disponibles
Plusieurs jeux de données produits par le projet sont disponibles :
- Documents en mode "article" : ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition).
- Documents en mode OCR : ce jeu de données contient les documents numériques des collections de presse traitées durant le projet avec une reconnaissance du texte (OCR, optical character recognition).
- Texte des documents : ce jeu de données contient le texte des collections de presse traitées durant le projet Europeana Newpapers.
- Textes annotés en entités nommées : ce jeu de données est constitué de textes extraits de documents des collections de presse traitées durant le projet et annotés en terme d’entités nommées de type Personne, Lieu et Organisation.
- Métadonnées quantitatives : Ce jeu de données contient des métadonnées quantitatives relatives aux contenus de la collection de presse traitée durant le projet européen Europeana Newspapers.
Voir aussi
Accès
http://www.europeana-newspapers.eu/
Fiche Technique
formatXML Texte
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesOCR OLR GT
SujetsPresse