Api - API et jeux de données https://api.bnf.fr/fr fr Z39.50 : la recherche par ISSN est de nouveau possible https://api.bnf.fr/fr/node/223 <span>Z39.50 : la recherche par ISSN est de nouveau possible</span> <p>Une anomalie empêchait les utilisateurs du protocole Z39.50 de rechercher les notices de la BnF via leur ISSN.</p> <p>Ce dysfonctionnement est désormais corrigé.</p> <span><span lang="" about="/fr/user/30" typeof="schema:Person" property="schema:name" datatype="">BNF0018822</span></span> <span>mar 03/05/2022 - 17:02</span> Tue, 03 May 2022 17:02:30 +0000 BNF0018822 223 at https://api.bnf.fr Dumps Gallica : OCR des monographies https://api.bnf.fr/fr/node/222 <span>Dumps Gallica : OCR des monographies</span> <p>Ce jeu de données fournit le texte océrisé des monographies en langue française de la collection numérique de Gallica.</p> <span><span lang="" about="/fr/user/18" typeof="schema:Person" property="schema:name" datatype="">BNF0016806</span></span> <span>mer 23/03/2022 - 16:13</span> <h2> Contenu du jeu de données </h2> <p>Il contient le texte transcrit par OCR des monographies de langue française de Gallica (en ligne à la date de mars 2021), pour lesquelles le texte n'est pas l'objet de conditions d'usage restrictives, soit environ 289 000 ouvrages.</p> <p>La requête Gallica correspondant aux monographies de langue française avec OCR et en ligne à la date de mars 2021, est la suivante :</p> <pre> <a href="https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&amp;exactSearch=true&amp;collapsing=false&amp;version=1.2&amp;query=(dc.language%20all%20%22fre%22)%20and%20(dc.type%20all%20%22monographie%22)%20and%20(gallicapublication_date%3E=%221380%22)%20and%20(ocr.quality%20all%20%22Texte%20disponible%22)%20and%20(indexationdate%3C=%222021/04/01%22">https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&amp;exactSearch=true&amp;collapsing=false&amp;version=1.2&amp;query=(dc.language%20all%20%22fre%22)%20and%20(dc.type%20all%20%22monographie%22)%20and%20(gallicapublication_date%3E=%221380%22)%20and%20(ocr.quality%20all%20%22Texte%20disponible%22)%20and%20(indexationdate%3C=%222021/04/01%22</a>)</pre> <p>Elle renvoie environ 377k documents, la différence entre les deux quantités correspondant en majorité au corpus du progamme de numérisation des Indisponibles du XXe siècle, qui est référencé dans Gallica mais dont les textes sont soumis à une restriction d'usage.</p> <h2> Fomat du jeu de données </h2> <p>Le jeu se compose :</p> <ul><li>des métadonnées au format CSV des monographies concernées (375546)</li> <li>de la liste des identifiants des monographies disposant d'un OCR, accessible via l'API Gallica texteBrut (289577),</li> <li>des pages HTML de l'OCR de ces documents.  </li> </ul> <h2> Contexte de production </h2> <p>Ce jeu a été produit par les créateurs de l'outil de lexicométrie <a href="https://shiny.ens-paris-saclay.fr/app/gallicagram">Gallicagram</a>, pour les besoins de ce dernier.</p> <p>Une page de contextualisation des corpus de Gallicagram permet de visualiser leur distribution relativement à la dimension temporelle et à celle du droit d'auteur.</p> <span class="badge">HTML</span> <span class="badge">Texte</span> <p about="/fr/taxonomy/term/61"> <a href="https://gallica.bnf.fr/edit/und/conditions-dutilisation-des-contenus-de-gallica"> Conditions d&#039;utilisation des contenus de Gallica </a> </p> <div class="card mb-5"> <img src="/themes/custom/bnf_api_design/img/vign/64.jpg" alt="" class="card-img rounded"/> <a rel="bookmark" href="/fr/gallicagram-un-outil-de-lexicographie" class="card-body align-self-center rounded"> <h6><span>Utiliser les API de Gallica : l&#039;exemple de Gallicagram</span> </h6> <p data-history-node-id="214" role="article" about="/fr/gallicagram-un-outil-de-lexicographie"> <p>Gallicagram est un outil de lexicométrie conçu pour les chercheurs et portant sur les contenus de Gallica.</p> </p> <span class="badge">R</span> <span class="badge">Presse</span> <span class="badge">Textes</span> <span class="badge">Lexicométrie</span> </a> </div> <div class="card mb-5"> <img src="/themes/custom/bnf_api_design/img/vign/17.jpg" alt="" class="card-img rounded"/> <a rel="bookmark" href="/fr/api-document-de-gallica" class="card-body align-self-center rounded"> <h6><span>API Document de Gallica</span> </h6> <p data-history-node-id="50" role="article" about="/fr/api-document-de-gallica"> À partir d&#039;un document trouvé via l’API de recherche ou de l&#039;interface Gallica, l’API Document permet de récupérer les d&#039;informations (métadonnées) nécessaires à l&#039;exploitation des ressources numér </p> <span class="badge">XML</span> </a> </div> <time datetime="2022-03-23T16:13:28Z">mer 23/03/2022 - 16:13</time> <li class="bnf-mega-links download"> <a href="ftp://ftp.bnf.fr/api/Gallica/Dumps/OCR/MONO/liste_monographies_gallica-integres_mars2021.zip" alt="Métadonnées" rel=""class="d-flex pl-4 justify-content-between download"> <span>Métadonnées des monographies (49 Mo)</span> </a> </li> <li class="bnf-mega-links download"> <a href="ftp://ftp.bnf.fr/api/Gallica/Dumps/OCR/MONO/liste_arks-avec-OCR.txt" alt="" rel=""class="d-flex pl-4 justify-content-between download"> <span>Liste des ARK des monographies du jeu</span> </a> </li> <li class="bnf-mega-links download"> <a href="ftp://ftp.bnf.fr/api/Gallica/Dumps/OCR/MONO/html.tgz" alt="" rel=""class="d-flex pl-4 justify-content-between download"> <span>OCR (113 Mo)</span> </a> </li> 2021 <span class="badge">OCR</span> <span class="badge">Documents</span> <p> </p> <p> </p> <p> </p> <p> </p> <p> </p> <p> </p> <p> </p> Wed, 23 Mar 2022 16:13:26 +0000 BNF0016806 222 at https://api.bnf.fr Utiliser les API de Gallica : l'exemple de Gallicagram https://api.bnf.fr/fr/gallicagram-un-outil-de-lexicographie <span>Utiliser les API de Gallica : l&#039;exemple de Gallicagram</span> <p>Gallicagram est un outil de lexicométrie conçu pour les chercheurs et portant sur les contenus de Gallica.</p> <span><span lang="" about="/fr/user/18" typeof="schema:Person" property="schema:name" datatype="">BNF0016806</span></span> <span>mar 23/11/2021 - 14:35</span> Tutoriels &amp; outils <span class="badge">Presse</span> <span class="badge">Textes</span> <span class="badge">Lexicométrie</span> <span class="badge">R</span> Gallica <p about="/fr/taxonomy/term/61"> <a href="https://gallica.bnf.fr/edit/und/conditions-dutilisation-des-contenus-de-gallica"> Conditions d&#039;utilisation des contenus de Gallica </a> </p> gallica@bnf.fr <p><a href="https://shiny.ens-paris-saclay.fr/app/gallicagram">https://shiny.ens-paris-saclay.fr/app/gallicagram</a></p> <p> </p> <p> </p> <p> </p> <p> </p> <p> </p> <p> </p> <h2> Historique </h2> <p>Gallicagram a été développé par Benjamin Azoulay (ENS Paris-Saclay) et Benoît de Courson (Max Planck Institute - CSL) à l'aide des API Gallica.</p> <p>Il est disponible à cette adresse : <a href="https://shiny.ens-paris-saclay.fr/app/gallicagram">https://shiny.ens-paris-saclay.fr/app/gallicagram</a></p> <h2> Présentation de Gallicagram par ses auteurs </h2> <p>En 2011, Google proclamait le début d’une nouvelle ère en sciences sociales. Son logiciel « révolutionnaire », Ngram Viewer, permettait désormais de tracer en un instant la courbe de l’emploi d’un mot à travers le temps. Du <em>Big Data</em> devait jaillir spontanément la connaissance. Dix ans plus tard, force est de constater que le logiciel n’a pas convaincu les chercheurs, et <em>a fortiori </em>les chercheurs en sciences humaines et sociales français. L’inaccessibilité des documents exploités a rebuté les uns, l’absence d’informations sur la structure des corpus traités a détourné les autres. Tant et si bien que la lexicométrie a aujourd’hui mauvaise presse, vue comme une approche grossière, à défaut d’un corpus « maîtrisé », c’est-à-dire strictement délimité, finement décrit et entièrement disponible. Gallicagram propose de mettre à profit la masse de textes numérisés par la BnF en garantissant la maîtrise et la transparence du corpus, de sorte que le chercheur puisse tester ses hypothèses avec rigueur, ou en faire émerger de nouvelles. </p> <p>Concrètement, Gallicagram permet de visualiser l’évolution de l’usage des mots au cours du temps en fouillant les corpus de presse et de livres numérisés par la BnF et par bien d’autres bibliothèques nationales et locales, en cinq langues. Le logiciel permet d’observer non seulement les tendances séculaires et les évolutions de moyen terme, mais surtout – et c’est une nouveauté – de s’approcher au plus près des événements. Pour cela, nous avons particulièrement travaillé sur les corpus de presse, par nature sensibles aux soubresauts de l’actualité. Dans le cas de Gallica, nous avons « moissonné » trois millions de numéros de presse, numérisés et océrisés, pour en extraire la fréquence d’emploi des mots à l’échelle mensuelle, là où Ngram Viewer a fait le choix d’exclure les journaux de son corpus, et n’est précis qu’à l’année près. Notre outil permet, par exemple, de voir le choléra déferler sur la France en avril 1832. Une recherche dans le corpus de la British Library suggère que le choléra arrive dès novembre 1831 en Angleterre – événement qui semble d’ailleurs trouver un écho relatif dans la presse française, où la courbe frémit également ce mois-là. </p> <figure role="group" class="align-center"><div> <img src="/sites/default/files/styles/large/public/database/2021-11/251771043_567364747897593_1731055663910416532_n.png?itok=7lzuSdA9" width="480" height="264" alt="Coévolution du syntagme « choléra » en France (rouge) et en Angleterre (bleu), 1831-1833, Gallicagram" title="Coévolution du syntagme « choléra » en France (rouge) et en Angleterre (bleu), 1831-1833, Gallicagram" typeof="foaf:Image" /></div> <figcaption>Coévolution du syntagme « choléra » en France (rouge) et en Angleterre (bleu), 1831-1833, Gallicagram</figcaption></figure><p>Par ailleurs, le parti pris de l'ouverture des données fait par Gallica permet de vérifier la pertinence des textes sous-jacents au graphique : il suffit à l’utilisateur de cliquer sur un point du graphique pour lire les articles correspondants dans Gallica. À l’inverse, le corpus sous-jacent de Ngram Viewer n’est pas accessible, ce qui empêche de vérifier la réalité des occurrences dénombrées – toujours susceptibles d’erreurs de datation ou d’océrisation. Cette fonctionnalité est un garde-fou contre un écueil majeur de la lexicométrie : la polysémie. Une acception du mot ignorée par le chercheur apparaît rapidement en parcourant les documents, évitant ainsi une interprétation fallacieuse. Simple d’utilisation, Gallicagram est accessible à tous les chercheurs, quelle que soit leur familiarité avec l’informatique. Il est accompagné d’outils plus fins, pour calculer la corrélation entre les courbes, décrire leur structure ou visualiser leur répartition géographique. Ces options permettent aux chercheurs de dépasser la seule fouille des données pour quantifier leurs hypothèses.  </p> <h2> Utilisation </h2> <p>Gallicagram est librement <a href="https://shiny.ens-paris-saclay.fr/app/gallicagram">accessible </a>et son utilisation est documentée dans les onglets Notice et Tutoriel.</p> <p>Pour la création des corpus, ont été utilisées les API Gallica SRU et Gallica Texte brut.</p> <p> </p> <p> </p> <div class="card mb-5"> <img src="/themes/custom/bnf_api_design/img/vign/13.jpg" alt="" class="card-img rounded"/> <a rel="bookmark" href="/fr/node/222" class="card-body align-self-center rounded"> <h6><span>Dumps Gallica : OCR des monographies</span> </h6> <p data-history-node-id="222" role="article" about="/fr/node/222"> Ce jeu de données fournit le texte océrisé des monographies en langue française de la collection numérique de Gallica. </p> <span class="badge">HTML</span> <span class="badge">Texte</span> <span class="badge">OCR</span> <span class="badge">Documents</span> </a> </div> Tue, 23 Nov 2021 14:35:46 +0000 BNF0016806 214 at https://api.bnf.fr Référencer des documents Gallica https://api.bnf.fr/fr/referencer <span>Référencer des documents Gallica</span> <p>Le référencement de documents Gallica s'appuie sur l'identifiant pérenne <a href="https://api.bnf.fr/fr/les-identifiants-pivots-entre-les-api">ARK (Archival Resource Key)</a> utilisé par la BnF. Il est diffusé :</p> <ul><li>dans la notice bibliographique disponible dans l'onglet "En savoir plus" de la page d'un document Gallica,</li> <li>via la fonction "Partage et envoi par courriel", option Lien.</li> <li>et dans l'URL de la page web associée au document.</li> </ul><p>Le grain de référencement peut être celui du document ou celui de la page numérisée :</p> <ul><li>document : <a href="https://gallica.bnf.fr/ark:/12148/bpt6k3228953">https://gallica.bnf.fr/ark:/12148/bpt6k3228953</a></li> <li>page : <a href="https://gallica.bnf.fr/ark:/12148/bpt6k3228953/f34">https://gallica.bnf.fr/ark:/12148/bpt6k3228953/f34</a></li> </ul> <span><span lang="" about="/fr/user/18" typeof="schema:Person" property="schema:name" datatype="">BNF0016806</span></span> <span>lun 21/03/2022 - 11:17</span> Tutoriels &amp; outils <span class="badge">Documents</span> Gallica <p about="/fr/taxonomy/term/61"> <a href="https://gallica.bnf.fr/edit/und/conditions-dutilisation-des-contenus-de-gallica"> Conditions d&#039;utilisation des contenus de Gallica </a> </p> <p> </p> <p> </p> <p> </p> <p> </p> <p> </p> <h2> Wikipédia, Wikidata, Wikisource </h2> <p>Les conventions bibliographiques à suivre pour référencer des ouvrages de Gallica dans Wikipédia sont décrites dans cette <a href="https://fr.wikipedia.org/wiki/Aide:Biblioth%C3%A8que_num%C3%A9rique">aide</a>. Elles s'appuient sur le <a href="https://fr.wikipedia.org/wiki/Mod%C3%A8le:Ouvrage">modèle Ouvrage de Wikipédia</a>.</p> <p>Un <a href="https://fr.wikipedia.org/wiki/Mod%C3%A8le:Gallica">modèle de source Gallica</a> est également disponible.</p> <p>Dans le modèle Wikidata, deux propriétés permettent de référencer un document Gallica ou sa notice catalogue :</p> <ul><li>identifiant Gallica : <a href="https://www.wikidata.org/wiki/Property:P4258">P4258</a></li> <li>identifiant catalogue : <a href="https://www.wikidata.org/wiki/Property:P268">P268</a></li> </ul><p><span>Dans Wikisource, le modèle <a href="https://fr.wikisource.org/wiki/Mod%C3%A8le:Gallica">{{Gallica|}}</a> permet de créer un lien vers une œuvre de Gallica en utilisant son identifiant ARK. Le modèle <a href="https://fr.wikisource.org/wiki/Mod%C3%A8le:BnF">{{BnF}}</a> permet d'indiquer la source du document.</span></p> <h2> Zotero </h2> <p>A venir</p> <div class="card mb-5"> <img src="/themes/custom/bnf_api_design/img/vign/29.jpg" alt="" class="card-img rounded"/> <a rel="bookmark" href="/fr/les-identifiants-pivots-entre-les-api" class="card-body align-self-center rounded"> <h6><span>Les identifiants, pivots entre les API et jeux de données</span> </h6> <p data-history-node-id="171" role="article" about="/fr/les-identifiants-pivots-entre-les-api"> Pour manipuler les données, et notamment pour récupérer des informations sur une même ressource à travers plusieurs applications, il est souvent indispensable de s'appuyer sur des identifiants partagés entre ces applications, ou entre ces ressources. </p> </a> </div> Mon, 21 Mar 2022 11:17:07 +0000 BNF0016806 221 at https://api.bnf.fr Dumps Gallica : métadonnées de la collection https://api.bnf.fr/fr/node/215 <span>Dumps Gallica : métadonnées de la collection</span> <p>Ce jeu de données référence tous les documents de la collection numérique de Gallica à travers leurs métadonnées bibliographiques élémentaires.</p> <span><span lang="" about="/fr/user/18" typeof="schema:Person" property="schema:name" datatype="">BNF0016806</span></span> <span>jeu 02/12/2021 - 16:27</span> <h2> Contenu du jeu de données </h2> <p>Ce jeu contient les identifiants et les métadonnées bibliographiques élémentaires (auteur, date de publication, etc.) des documents numérisés des différentes collections de Gallica.</p> <table border="1" cellpadding="1" cellspacing="1" style="width: 409px;"><tbody><tr><td style="width: 182.11px;"><strong>Collection</strong></td> <td style="width: 117.63px;"><strong>Documents</strong></td> <td style="width: 88px;"><strong>Date (dump)</strong></td> </tr><tr><td style="width: 182.11px;">Images</td> <td style="width: 117.63px;">412786</td> <td style="width: 88px;">août 2021</td> </tr><tr><td style="width: 182.11px;">Partitions</td> <td style="width: 117.63px;">57411</td> <td style="width: 88px;">janvier 2022</td> </tr><tr><td style="width: 182.11px;">Cartes</td> <td style="width: 117.63px;">70161</td> <td style="width: 88px;">janvier 2022</td> </tr><tr><td style="width: 182.11px;">Monographies</td> <td style="width: 117.63px;">550474</td> <td style="width: 88px;">janvier 2022</td> </tr><tr><td style="width: 182.11px;">Manuscrits</td> <td style="width: 117.63px;">125420</td> <td style="width: 88px;">mars 2022</td> </tr><tr><td style="width: 182.11px;">Objets</td> <td style="width: 117.63px;"> </td> <td style="width: 88px;"> </td> </tr><tr><td style="width: 182.11px;">Vidéo</td> <td style="width: 117.63px;"> </td> <td style="width: 88px;"> </td> </tr><tr><td style="width: 182.11px;">Périodiques</td> <td style="width: 117.63px;"> </td> <td style="width: 88px;"> </td> </tr></tbody></table><p> </p> <p>Les documents concernés ont pour source :</p> <ul><li>la collection de la BnF,</li> <li>les collections des partenaires intégrés à Gallica (hors partenaires moissonnés).</li> </ul> <h2> Contexte de production </h2> <p>Le jeu a été exporté de l'entrepôt OAI-PMH de Gallica à l'aide de requêtes portant sur les différents sets documentaires de Gallica. Par exemple, pour la collection Image : <em>gallica:typedoc:images</em></p> <p><a href="http://oai.bnf.fr/oai2//OAIHandler?verb=ListRecords&amp;set=gallica:typedoc:images&amp;metadataPrefix=oai_dc">http://oai.bnf.fr/oai2//OAIHandler?verb=ListRecords&amp;set=gallica:typedoc:images&amp;metadataPrefix=oai_dc</a></p> <p>La requête Gallica correspondante est :</p> <p><a href="https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&amp;collapsing=false&amp;version=1.2&amp;query=(dc.type%20all%20%22image%22)%20and%20(provenance%20adj%20%22bnf.fr%22">https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&amp;collapsing=false&amp;version=1.2&amp;query=(dc.type%20all%20%22image%22)%20and%20(provenance%20adj%20%22bnf.fr%22</a><a href="https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&amp;collapsing=false&amp;version=1.2&amp;query=(dc.type%20all%20%22image%22)%20and%20(provenance%20adj%20%22bnf.fr%22)">)</a></p> <h2> Format du jeu de données </h2> <p>Les métadonnées sont fournies au format CSV (UTF8). Elles incluent les champs suivants :</p> <pre> identifiant;titre;date;auteur;langue;notice;source;sujets;description;format;couverture;genre;largeur;hauteur;ocr;table;légendes;#pages</pre> <span class="badge">CSV</span> 1 <p about="/fr/taxonomy/term/60"> <a href=""> Licence ouverte de l’état </a> </p> jean-philippe.moreux@bnf.fr <div class="card mb-5"> <img src="/themes/custom/bnf_api_design/img/vign/10.jpg" alt="" class="card-img rounded"/> <a rel="bookmark" href="/fr/node/170" class="card-body align-self-center rounded"> <h6><span>Entrepôt OAI-PMH de Gallica et des expositions virtuelles (OAI-NUM)</span> </h6> <p data-history-node-id="170" role="article" about="/fr/node/170"> OAI-PMH  (Open Archives Initiative - Protocol for Metadata Harvesting), est un « protocole de collecte de métadonnées de l&#039;Initiative pour les Archives ouvertes ». </p> <span class="badge">XML</span> <span class="badge">OAI-PMH</span> </a> </div> <div class="card mb-5"> <img src="/themes/custom/bnf_api_design/img/vign/17.jpg" alt="" class="card-img rounded"/> <a rel="bookmark" href="/fr/api-document-de-gallica" class="card-body align-self-center rounded"> <h6><span>API Document de Gallica</span> </h6> <p data-history-node-id="50" role="article" about="/fr/api-document-de-gallica"> À partir d&#039;un document trouvé via l’API de recherche ou de l&#039;interface Gallica, l’API Document permet de récupérer les d&#039;informations (métadonnées) nécessaires à l&#039;exploitation des ressources numér </p> <span class="badge">XML</span> </a> </div> <time datetime="2021-12-02T16:27:55Z">jeu 02/12/2021 - 16:27</time> <li class="bnf-mega-links download"> <a href="ftp://ftp.bnf.fr/api/Gallica/Dumps/OAI/data_images.csv.zip" alt="Images" rel=""class="d-flex pl-4 justify-content-between download"> <span>Images (45 Mo)</span> </a> </li> <li class="bnf-mega-links download"> <a href="ftp://ftp.bnf.fr/Gallica/Dumps/OAI/data_monos.csv.zip" alt="Monographies" rel=""class="d-flex pl-4 justify-content-between download"> <span>Monographies (70 Mo)</span> </a> </li> <li class="bnf-mega-links download"> <a href="ftp://ftp.bnf.fr/api/Gallica/Dumps/OAI/data_partitions.csv.zip" alt="Partitions" rel=""class="d-flex pl-4 justify-content-between download"> <span>Partitions (8 Mo)</span> </a> </li> <li class="bnf-mega-links download"> <a href="ftp://ftp.bnf.fr/api/Gallica/Dumps/OAI/data_cartes.csv.zip" alt="Cartes" rel=""class="d-flex pl-4 justify-content-between download"> <span>Cartes (10 Mo)</span> </a> </li> <li class="bnf-mega-links download"> <a href="ftp://ftp.bnf.fr/api/Gallica/Dumps/OAI/data_manuscrits.csv.zip" alt="Manuscrits " rel=""class="d-flex pl-4 justify-content-between download"> <span>Manuscrits (44 Mo)</span> </a> </li> Août 2021 <span class="badge">Images</span> <p> </p> <p> </p> <p> </p> <p> </p> <p> </p> Thu, 02 Dec 2021 16:27:54 +0000 BNF0016806 215 at https://api.bnf.fr Dumps des métadonnées de la collection Gallica https://api.bnf.fr/fr/node/220 <span>Dumps des métadonnées de la collection Gallica</span> <p><span>Ce jeu de données référence tous les documents de la collection numérique de Gallica à travers leurs métadonnées bibliographiques élémentaires (format CSV).</span></p> <span><span lang="" about="/fr/user/18" typeof="schema:Person" property="schema:name" datatype="">BNF0016806</span></span> <span>mer 09/03/2022 - 16:00</span> <a href="https://api.bnf.fr/fr/node/215">https://api.bnf.fr/fr/node/215</a> Wed, 09 Mar 2022 16:00:32 +0000 BNF0016806 220 at https://api.bnf.fr SRU : perturbations à prévoir le 07/03 https://api.bnf.fr/fr/node/219 <span>SRU : perturbations à prévoir le 07/03</span> <p>En raison de travaux techniques le lundi 7 mars 2022, il est possible que l'utilisation du SRU soit perturbée ce jour.</p> <p>Nous nous excusons pour la gêne occasionnée.</p> <span><span lang="" about="/fr/user/30" typeof="schema:Person" property="schema:name" datatype="">BNF0018822</span></span> <span>jeu 03/03/2022 - 16:17</span> Thu, 03 Mar 2022 16:17:07 +0000 BNF0018822 219 at https://api.bnf.fr Partitions numériques de la Renaissance https://api.bnf.fr/fr/partitions-numeriques-de-la-renaissance <span>Partitions numériques de la Renaissance</span> <p>Ce jeu de données contient des partitions numériques d’Eustache du Caurroy et de Carlo Gesualdo produites aux formats MEI et Sibelius.</p> <p style="margin-bottom:.0001pt"> </p> <figure role="group"><div> <img src="/sites/default/files/styles/large/public/database/d7/partition-1-5f646cbe60077.png?itok=St12wyH7" width="480" height="113" alt="partition-1" typeof="foaf:Image" /></div> <figcaption></figcaption></figure> <span><span lang="" about="/fr/user/18" typeof="schema:Person" property="schema:name" datatype="">BNF0016806</span></span> <span>mer 22/11/2017 - 13:24</span> <h2> Contenu du jeu de données </h2> <p>Ce jeu de données présente deux œuvres de la Renaissance :</p> <p>« Preces », Eustache Du Caurroy, (48 pièces). Lien Gallica : <a href="http://gallica.bnf.fr/ark:/12148/btv1b9058644d">http://gallica.bnf.fr/ark:/12148/btv1b9058644d</a></p> <p>« Madrigaux à cinq voix », Carlo Gesualdo (6 livres, 101 pièces). Liens Gallica (NB : l’édition ayant servi à la production des partitions et l’édition Gallica sont différentes. De plus, le livre 5 n’est pas numérisé dans Gallica) :</p> <ul><li>Livre 1 : <a href="http://gallica.bnf.fr/ark:/12148/btv1b8426015x">http://gallica.bnf.fr/ark:/12148/btv1b8426015x</a></li> <li>Livre 2 : <a href="http://gallica.bnf.fr/ark:/12148/btv1b8426016b">http://gallica.bnf.fr/ark:/12148/btv1b8426016b</a></li> <li>Livre 3 : <a href="http://gallica.bnf.fr/ark:/12148/btv1b8426017r">http://gallica.bnf.fr/ark:/12148/btv1b8426017r</a></li> <li>Livre 4 : <a href="http://gallica.bnf.fr/ark:/12148/btv1b84701878/">http://gallica.bnf.fr/ark:/12148/btv1b84701878</a></li> <li>Livre 6 : <a href="http://gallica.bnf.fr/ark:/12148/btv1b8426019k">http://gallica.bnf.fr/ark:/12148/btv1b8426019k</a></li> </ul><p>Il inclut également une partition de François Couperin :</p> <ul><li style="margin-bottom:.0001pt">« <span style="line-height:normal"><span style="color:black">Leçon des ténèbres</span></span> » <span style="line-height:normal"><span style="color:black">. Lien Gallica : <a href="http://gallica.bnf.fr/ark:/12148/btv1b52502410z">http://gallica.bnf.fr/ark:/12148/btv1b52502410z</a></span></span></li> </ul> <h2> Contexte de production </h2> <p>Les partitions Carlo Gesualdo et  Eustache Du Caurroy ont été produites par le Centre d’études supérieures de la renaissance (CESR, Tours, <a href="http://cesr.univ-tours.fr/">http://cesr.univ-tours.fr/</a>)</p> <p>La partition François Couperin a été produite par Lucas Peres.</p> <h2> Format du jeu de données </h2> <p>Les partitions sont fournies selon les formats XML MEI et/ou Sibelius. Un export PDF des partitions est également donné pour les jeux Gesualdo et Du Caurroy.</p> <h2> Exemples d’utilisation </h2> <p>Ce portail de musicologie (<a href="https://ricercar.gesualdo-online.cesr.univ-tours.fr/">CESR, université de Tours</a>) propose une transcription de l’œuvre de Carlo Gesualdo.</p> <h2> Voir aussi </h2> <p>Le site <a href="http://music-encoding.org/">http://music-encoding.org/</a> présente une introduction au format XML MEI ainsi qu'une bibliothèque d'outils (affichage, conversion, etc.).</p> <span class="badge">Sibelius</span> <span class="badge">PDF</span> <span class="badge">MEI</span> <p about="/fr/taxonomy/term/61"> <a href="https://gallica.bnf.fr/edit/und/conditions-dutilisation-des-contenus-de-gallica"> Conditions d&#039;utilisation des contenus de Gallica </a> </p> jean-philippe.moreux@bnf.fr <div class="card mb-5"> <img src="/themes/custom/bnf_api_design/img/vign/40.jpg" alt="" class="card-img rounded"/> <a rel="bookmark" href="/fr/explorer-les-donnees-des-collections-musicales" class="card-body align-self-center rounded"> <h6><span>Explorer les données des collections musicales</span> </h6> <p data-history-node-id="157" role="article" about="/fr/explorer-les-donnees-des-collections-musicales"> <p>La BnF propose pour les collections musicales des données particulièrement riches et qui offrent des possibilités d'enrichissement auprès de sources extérieures de données.</p> </p> <span class="badge">JSON</span> <span class="badge">XML</span> <span class="badge">IIIF</span> <span class="badge">SRU</span> <span class="badge">Sparql</span> <span class="badge">Intermarc</span> <span class="badge">Musique</span> <span class="badge">Hackathon</span> </a> </div> <time datetime="2020-09-18T08:15:58Z">ven 18/09/2020 - 08:15</time> <li class="bnf-mega-links download"> <a href="https://transfert.bnf.fr/link/e7b9eab2-bbfd-4609-baf7-7e04471d902d" alt="" rel=""class="d-flex pl-4 justify-content-between download"> <span>Partitions</span> </a> </li> 2016-2017 <span class="badge">OMR</span> <span class="badge">GT</span> <span class="badge">Musique</span> <a href="/fr/taxonomy/term/305" hreflang="fr">Téléchargement des jeux de données</a> Wed, 22 Nov 2017 13:24:57 +0000 BNF0016806 70 at https://api.bnf.fr Lancement de la campagne d'évaluation HIPE-2022 sur la reconnaissance d'entités nommées https://api.bnf.fr/fr/node/218 <span>Lancement de la campagne d&#039;évaluation HIPE-2022 sur la reconnaissance d&#039;entités nommées</span> <p>La campagne d'évaluation HIPE-2022 (<em>Identifying Historical People, Places and other Entities</em>) vise à mesurer les performances des systèmes de reconnaissance des entités nommées (p. ex. noms de personnes, lieux, organisations) dans des documents historiques multilingues. Organisée par des chercheurs du Digital Humanities Laboratory (DHLAB) de l'EPFL, de l'université de Lausanne, de l'université de Zurich et de l'université de La Rochelle, HIPE-2022 fait partie des “Evaluation Labs" de CLEF 2022. </p> <p>La série de campagnes d'évaluation HIPE participe des efforts communs des communautés scientifiques du traitement automatique du langage naturel et des humanités numériques pour développer des technologies d’extraction d'informations sur des textes historiques. Pour cette seconde édition, HIPE-2022 propose de confronter les systèmes à plus de langues, à des types de documents variés, et à des typologies d’entités différentes. L'objectif est de développer des systèmes “transférables” d’une langue à l’autre, d’un type de document à l’autre, et d’une période temporelle à l’autre. </p> <p>HIPE-2022 propose deux tâches :</p> <ul><li>Reconnaissance et classification des entités nommées </li> <li>Liaison d'entités </li> </ul><p><strong>Données</strong></p> <p>Les jeux de données HIPE-2022 sont basés sur six jeux de données assemblés et préparés pour la campagne, composés de journaux historiques et de commentaires classiques en plusieurs langues et couvrant environ 200 ans. Ces jeux de données proviennent de divers projets européens sur le patrimoine culturel ; certains sont déjà publiés, d'autres le sont pour la première fois pour HIPE-2022.</p> <p><strong>Tracks et Challenges</strong></p> <p>Afin de tenir compte des différentes dimensions qui caractérisent HIPE-2022 (tâches, langues, types de documents, typologies d'entités) et de favoriser la recherche sur la transférabilité des systèmes, l’évaluation est organisée autour de “tracks” et “challenges”.</p> <p>Un “track" est un triplet spécifique composé de [dataset-language-tâche] et un “challenge" est un ensemble prédéfini de tracks (un challenge peut être vu comme une sorte de championnat avec plusieurs tracks).</p> <p>HIPE-2022 évalue spécifiquement trois challenges :</p> <ul><li>Multilingual Newspaper Challenge : jeux de données de journaux uniquement, 2 langues minimum ;</li> <li>Multilingual Classical Commentary Challenge : jeux de données de commentaires classiques uniquement, 3 langues minimum ;</li> <li>Global Adaptation Challenge : jeux de données incluant deux types de documents, 2 langues minimum. </li> </ul><p>Site internet de HIPE-2022 : <a href="https://hipe-eval.github.io/HIPE-2022/">https://hipe-eval.github.io/HIPE-2022/</a> </p> <p>Inscription (jusqu’au 22 avril 2022) : <a href="https://clef2022-labs-registration.dei.unipd.it/">https://clef2022-labs-registration.dei.unipd.it/</a> </p> <p>Données et répertoire GitHub HIPE-2022 : <a href="https://github.com/hipe-eval/HIPE-2022-data">https://github.com/hipe-eval/HIPE-2022-data</a> </p> <p>Guide de participation : <a href="https://doi.org/10.5281/zenodo.6045662">https://doi.org/10.5281/zenodo.6045662</a></p> <p>Workshop final : durant la conférence CLEF en Septembre 2022 à Bologne, Italie.</p> <p>Twitter : #HIPE2022 / @clef_initiative / #clef2022</p> <span><span lang="" about="/fr/user/18" typeof="schema:Person" property="schema:name" datatype="">BNF0016806</span></span> <span>ven 25/02/2022 - 15:46</span> Fri, 25 Feb 2022 15:46:35 +0000 BNF0016806 218 at https://api.bnf.fr OCR corrigé de documents de presse de Gallica https://api.bnf.fr/fr/ocr-corrige-de-documents-de-presse-de-gallica <span>OCR corrigé de documents de presse de Gallica</span> <p>Ce jeu de données contient des pages corrigées (vérité terrain) de documents numériques des collections de presse traités avec de l'OCR (<em>optical characters recognition</em>). </p> <p> </p> <figure role="group"><div> <img src="/sites/default/files/styles/large/public/database/d7/en-olr-vt-5f646cbaeec64.png?itok=5YxSn_k-" width="345" height="480" alt="en-olr-vt" typeof="foaf:Image" /></div> <figcaption></figcaption></figure><p><a href="http://gallica.bnf.fr/ark:/12148/bpt6k296011x/f10.image" target="_blank">http://gallica.bnf.fr/ark:/12148/bpt6k296011x/f10.image</a></p> <span><span lang="" about="/fr/user/18" typeof="schema:Person" property="schema:name" datatype="">BNF0016806</span></span> <span>mer 29/11/2017 - 15:28</span> <h2> Contenu du jeu de données </h2> <p>Ce jeu contient la transcription manuelle de pages de presse des collections de Gallica traitées durant plusieurs projets de recherche (dont Europeana Newspapers) ou programmes de numérisation. Cette transcription consiste en l'identification des différentes zones de la page (texte, illustration, autres éléments graphiques) et en la transcription du texte.</p> <table border="1" cellpadding="1" cellspacing="1" style="width: 409px;"><tbody><tr><td style="width: 182.11px;"><strong>Projet</strong></td> <td style="width: 117.63px;"><strong>Source</strong></td> <td style="width: 88px;"><strong>Quantité</strong></td> </tr><tr><td style="width: 182.11px;">Europeana Newspapers</td> <td style="width: 117.63px;">British Library</td> <td style="width: 88px;">73</td> </tr><tr><td style="width: 182.11px;">BnF</td> <td style="width: 117.63px;">Gallica</td> <td style="width: 88px;">121</td> </tr><tr><td style="width: 182.11px;">IMPACT</td> <td style="width: 117.63px;">Gallica</td> <td style="width: 88px;">16</td> </tr></tbody></table><p> </p> <p>Il est organisé par projet/programme. Au sein de chaque jeu, les pages corrigées sont décrites dans un tableau organisé comme suit :</p> <pre> <code>Image UD Titre Ark Date Pages --------------------------------------------------------------------------- 674978 268644 Le Figaro http://gallica.bnf.fr/ark:... 26-12-1836 8</code></pre> <p>La première colonne donne l’identifiant du fichier de vérité terrain (au format PAGE XML). Le fichier est stocké dans un dossier nommé d’après le titre de presse puis dans un sous-dossier PAGE (ou P) :</p> <pre> <code>Le Figaro PAGE 00674978.xml …</code></pre> <p>Note : un export texte (fichier .txt) est parfois fourni dans le sous-dossier PAGE et l’OCR Gallica dans un sous-dossier ALTO.</p> <p>La deuxième colonne contient l’identifiant numérique du document Gallica correspondant et la 4e son URL dans Gallica (avec l'information du numéro de vue à la suite du qualificateur <code>f</code>) :</p> <pre> <code>268644 -&gt; http://gallica.bnf.fr/ark:/12148/bpt6k268644s/f4.image</code></pre> <p>Les images des documents sont stockées dans les sous-dossiers T (au format TIFF) ou D (au format JPEG).</p> <h2> Contexte de production </h2> <p>Ces jeux ont été produits à l’aide de l’outil de création de vérité terrain <a href="http://www.primaresearch.org/tools/Aletheia" target="_blank">Aletheia</a> issu du projet de recherche IMPACT.</p> <h2> Formats du jeu de données </h2> <p>Ce jeu de données utilise les formats <a href="http://www.primaresearch.org/tools/Aletheia" target="_blank">PAGE XML</a> et <a href="https://www.loc.gov/standards/alto/" target="_blank">ALTO</a>.</p> <h2> Exemples d’utilisation </h2> <p>Ce jeu de données peut servir à évaluer les performances de systèmes OCR dédiés à la presse. Voir par exemple <a href="http://www.europeana-newspapers.eu/public-materials/deliverables/" target="_blank">http://www.europeana-newspapers.eu/public-materials/deliverables/</a>  (section "Work Package 3").</p> <h2> API et jeux de données en relation </h2> <h3 style="color:#aaaaaa;font-style:italic;">API</h3> <p>L’API Gallica IIIF permet d’obtenir les images des documents numériques à partir de leur identifiant ARK : <a href="http://gallica.bnf.fr/iiif/ark:/12148/bpt6k268644s/f4/full/full/0/native.jpg" target="_blank">http://gallica.bnf.fr/iiif/ark:/12148/bpt6k268644s/f4/full/full/0/native.jpg</a></p> <p>L’API Gallica OCR permet d’obtenir les fichiers OCR des documents numériques : <a href="http://gallica.bnf.fr/RequestDigitalElement?O=bpt6k268644s&amp;E=ALTO&amp;Deb=4" target="_blank">http://gallica.bnf.fr/RequestDigitalElement?O=bpt6k268644s&amp;E=ALTO&amp;Deb=4</a></p> <h3 class="MsoSubtitle" style="color:#aaaaaa; font-style:italic">Jeux de données</h3> <p style="margin-bottom:.0001pt">Les jeux de données des autres bibliothèques européennes partenaires du projet Europeana Newspapers sont disponibles <a href="http://www.prima.cse.salford.ac.uk/enp-dataset/index.php" target="_blank">en ligne</a> et sur demande.</p> <p style="margin-bottom:.0001pt"><span style="line-height:normal"><span style="text-autospace:none">Les jeux de données suivants présentent également des textes océrisés (et parfois corrigés) : </span></span></p> <ul><li style="margin-bottom:.0001pt"><i><a href="http://pictor.pfvd.ux.bnf.fr:8693/texte-des-documents-de-presse-du-projet-europeana-newspapers-xixe-xxe-siecles" target="_blank">Corpus texte</a> :</i> le texte des collections de presse traitées durant le projet européen Europeana Newspapers.</li> <li><a href="http://pictor.pfvd.ux.bnf.fr:8693/documents-de-presse-numerises-en-mode-article-du-projet-europeana-newspapers" target="_blank">OLR</a> : les collections de presse traitées en mode "article" durant le projet européen Europeana Newspapers</li> <li><i><a href="http://pictor.pfvd.ux.bnf.fr:8693/texte-corrige-et-ocr-de-documents-de-gallica" target="_blank">OCR aligné</a> </i>: les textes océrisés et corrigés de documents des collections monographiques et périodiques de Gallica.</li> </ul><p> </p> <span class="badge">XML</span> <p about="/fr/taxonomy/term/61"> <a href="https://gallica.bnf.fr/edit/und/conditions-dutilisation-des-contenus-de-gallica"> Conditions d&#039;utilisation des contenus de Gallica </a> </p> jean-philippe.moreux@bnf.fr <div class="card mb-5"> <img src="/themes/custom/bnf_api_design/img/vign/48.jpg" alt="" class="card-img rounded"/> <a rel="bookmark" href="/fr/node/190" class="card-body align-self-center rounded"> <h6><span>Projet Europeana Newspapers</span> </h6> <p data-history-node-id="190" role="article" about="/fr/node/190"> <p>Lancé en février 2012, le projet européen Europeana Newspapers avait comme objectif de garantir une visibilité augmentée et un meilleur accès aux collections numérisées de la presse européenne.</p> </p> <span class="badge">XML</span> <span class="badge">Texte</span> <span class="badge">OCR</span> <span class="badge">OLR</span> <span class="badge">GT</span> <span class="badge">Presse</span> </a> </div> <time datetime="2020-09-18T08:15:55Z">ven 18/09/2020 - 08:15</time> <li class="bnf-mega-links download"> <a href="ftp://ftp.bnf.fr/api/jeux_docs_num/OCR/Presse/BL.zip" alt="" rel=""class="d-flex pl-4 justify-content-between download"> <span>Jeu projet Europeana Newspapers (1,2 Go)</span> </a> </li> <li class="bnf-mega-links download"> <a href="ftp://ftp.bnf.fr/api/jeux_docs_num/OCR/Presse/BNF1.zip" alt="" rel=""class="d-flex pl-4 justify-content-between download"> <span>Jeu BnF-Presse 1 (1,2 Go)</span> </a> </li> <li class="bnf-mega-links download"> <a href="ftp://ftp.bnf.fr/api/jeux_docs_num/OCR/Presse/BNF2.zip" alt="" rel=""class="d-flex pl-4 justify-content-between download"> <span>Jeu BnF-Presse 2 (350 Mo)</span> </a> </li> <li class="bnf-mega-links download"> <a href="ftp://ftp.bnf.fr/api/jeux_docs_num/OCR/Presse/IMPACT.zip" alt="" rel=""class="d-flex pl-4 justify-content-between download"> <span>Jeu projet IMPACT (170 Mo)</span> </a> </li> 2015 <span class="badge">OCR</span> <span class="badge">GT</span> <span class="badge">Textes</span> <a href="/fr/taxonomy/term/305" hreflang="fr">Téléchargement des jeux de données</a> Wed, 29 Nov 2017 15:28:43 +0000 BNF0016806 79 at https://api.bnf.fr