XML Texte OCR OLR GT Presse

Projet Europeana Newspapers

Lancé en février 2012, le projet européen Europeana Newspapers avait comme objectif de garantir une visibilité augmentée et un meilleur accès aux collections numérisées de la presse européenne.

Présentation

Europeana Newspapers visait au traitement et l’agrégation des journaux libres de droits issus des grands titres de la presse européenne. Ces travaux permettent un accès en ligne à environ 18 millions de pages via le site Europeana.

En plus de cette diffusion, une série de traitements innovants améliorent les fonctionnalités de recherche dans ces contenus mais aussi l’enrichissement sémantique des données relatives à ces corpus.

Avec environ 3 millions de pages traitées dans le cadre du projet, la BnF vise à optimiser des processus liés à la numérisation, dont l’OCR (reconnaissance optique de caractères), ainsi que de bénéficier des dispositifs de reconnaissance des articles de presse (OLR) ou encore la reconnaissance des entités nommées (REN). Ces traitements proposent une consultation améliorée des contenus. De plus, grâce à la recherche plein-texte avec segmentation des articles, les journaux sont désormais plus finement décrits et bénéficient d’une classification de types de page et de contenu (publicités, petites annonces, tableaux, illustrations, légendes).

Données disponibles

Plusieurs jeux de données produits par le projet sont disponibles :

Documents en mode "article" : ce jeu de données contient les documents numériques d'une sélection des collections de presse de la BnF traitées avec une reconnaissance de la mise en page (OLR, optical layout recognition).
Documents en mode OCR : ce jeu de données contient les documents numériques des collections de presse traitées durant le projet avec une reconnaissance du texte (OCR, optical character recognition).
Texte des documents : ce jeu de données contient le texte des collections de presse traitées durant le projet Europeana Newpapers.
Textes annotés en entités nommées : ce jeu de données est constitué de textes extraits de documents des collections de presse traitées durant le projet et annotés en terme d’entités nommées de type Personne, Lieu et Organisation.
Métadonnées quantitatives : Ce jeu de données contient des métadonnées quantitatives relatives aux contenus de la collection de presse traitée durant le projet européen Europeana Newspapers.

Voir aussi

le site du projet
la collection de titres de presse sur le site Europeana

Accès

http://www.europeana-newspapers.eu/

Fiche Technique

Source des données

Gallica

Date de dernière mise à jour

2025

Formats techniques

XML Texte

Technologies

OCR OLR GT

Sujets

Presse

Licence

Conditions d'utilisation des contenus de Gallica

Contact

gallica@bnf.fr

Partage

X facebook Linkedin