PDF
JPEG / JPG
Texte
Python
Extracteur Python de corpus de périodiques de Gallica
Cet outil Python, développé par Pierre-Carl Langlais et Julien Schuh, permet d'extraire des corpus massifs de périodiques de Gallica.
Installation
Pyllica est un programme Python 3 (voir le github du développeur pour des conseils d'installation et d'utilisation).
Utilisation
Pyllica est composé de quatre outils :
- Pyllicalabs : extraction des contenus en texte brut de numéros de périodiques océrisés,
- Pyllicalabspdf : extraction des facsimilés PDF de numéros de périodiques,
- Pyllicalabsjpg : extraction des pages scannées d’un document sous forme de fichier image,
- Pyllicalabsjpgpress : même opération pour des numéros de périodiques.
Fiche Technique
formatPDF JPEG / JPG Texte
LicenceConditions d'utilisation des contenus de Gallica
TechnologiesPython