Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • Catalogue général de la BnF
    • data.bnf.fr
    • Dépôt légal du Web
    • Répertoire du Catalogue collectif de France (CCFr)
    • Mandragore
    • Catalogue général des manuscrits (CGM / CCFr)
    • Base Patrimoine (CCFr)
    • Répertoire des manuscrits littéraires français du XXème siècle (Palme)
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Extracteur Python De Corpus De Périodiques De Gallica
PDF JPEG / JPG Texte Python

Extracteur Python de corpus de périodiques de Gallica


Cet outil Python, développé par Pierre-Carl Langlais et Julien Schuh, permet d'extraire des corpus massifs de périodiques de Gallica.

Installation

Pyllica est un programme Python 3 (voir le github du développeur pour des conseils d'installation et d'utilisation).

Utilisation

Pyllica est composé de quatre outils :

  • Pyllicalabs : extraction des contenus en texte brut de numéros de périodiques océrisés,
  • Pyllicalabspdf : extraction des facsimilés PDF de numéros de périodiques,
  • Pyllicalabsjpg : extraction des pages scannées d’un document sous forme de fichier image,
  • Pyllicalabsjpgpress : même opération pour des numéros de périodiques.
Fiche Technique
format

PDF JPEG / JPG Texte

Licence

Conditions d'utilisation des contenus de Gallica

Technologies

Python

Contact
https://github.com/Dorialexander
Partage
twitter facebook Linkedin
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité
  • DCAT
twitter facebook instagram youtube