Logo BnF

API et jeux de données

fr
  • Accueil
    • Catalogue général de la BnF
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Mandragore
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Liste Des Adresses URL Des Collectes Ciblées Du Web Français Par La BnF
CSV RTF ZIP Sites web Archives de l'internet

Liste des adresses URL des collectes ciblées du web français par la BnF


Présentation

Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la BnF collecte régulièrement un échantillon du web français, constitué à partir de collectes larges et de collectes ciblées. Ces dernières regroupent les collectes « courantes » (pour les sites de référence sur un champ disciplinaire donné) et les collectes « projet » (portant sur un événement ou un thème particulier). Ce jeu de données contient une partie de la liste des adresses URL collectées depuis 2011 lors des collectes ciblées. 

Contenu du jeu de données

Le jeu est constitué de plus d'une centaine de tableaux au format csv contenant plus de 95 000 adresses URL de sites, blogs, comptes de réseaux sociaux collectés dans le cadre des collectes ciblées.

Pour chaque collecte courante et/ou projet, cinq tableaux en .csv sont mis à disposition : la liste des sites collectés de 2011-2016 et la liste des sites collectés en 2017, en 2018, en 2019, en 2020 et en 2021.

Ils sont regroupés en 19 fichiers compressés. Chaque fichier compressé contient les tableaux csv d’une collecte courante thématique et les csv des collectes projets en relation directe avec cette collecte courante, ainsi qu’un fichier texte de description des collectes. Certaines collectes projets sont indépendantes des collectes courantes en raison du caractère pluridisciplinaire de la thématique.

Toutes ces adresses URL servent de point de départ à la constitution des archives de l’internet, consultables par les chercheurs dans les salles de lecture de la BnF et dans certaines bibliothèques de dépôt légal imprimeur. Chaque adresse URL est accompagnée d’éléments de description (thème, mots-clés, informations descriptives complémentaires) et de paramètres techniques sur sa collecte (fréquence, historique de l’URL).

Contexte de production

Les collectes courantes portent sur plus d’une dizaine de milliers de sites, sélectionnés par les départements de collections de la BnF, en fonction de la spécificité et de la politique documentaire de chaque département. Elles sont réalisées depuis 2011 à des fréquences variables (de « plusieurs fois par jour » à « une fois par an ») en fonction des différents sites et selon les demandes des départements.

En partenariat avec la BnF, trois bibliothèques partenaires (Bibliothèque nationale et universitaire de Strasbourg, Médiathèque centrale d'Agglomération Emile Zola de Montpellier, Bibliothèque municipale de Nancy) ont une collecte courante, respectivement sur les Alsatiques, le Languedoc-Roussillon et la Lorraine.

Les collectes projets se caractérisent par leur sensibilité plus forte à l’actualité et par leur transversalité ou spécificité thématique. Elles sont souvent réalisées en coopération avec des partenaires (bibliothèques, centres de recherche, associations). La BnF dispose également d’une procédure de « collecte d'urgence » qui permet de capturer rapidement des sites à collecter à une date précise. Cette collecte concerne des sources en ligne susceptibles de disparaître rapidement.

Formats

Listes en .csv et textes d’accompagnement en .rtf, compressés dans des dossiers en .zip.

Télécharger
  • Liste des sites sélectionnés par le département Arts du spectacle de 2011 à 2021
  • Liste des sites sélectionnés par le département Cartes et plans de 2011 à 2021
  • Liste des sites sélectionnés par le département Littérature et arts de 2011 à 2021
  • Liste des sites sélectionnés par le département Musique de 2011 à 2021
  • Liste des sites sélectionnés par le département Philosophie, histoire, sciences de l'homme de 2011 à 2021
  • Liste des sites sélectionnés par le département Sciences et techniques de 2011 à 2021
  • Liste des sites sélectionnés par le département Son, Vidéo, Multimédia de 2011 à 2021
  • Liste des sites d'actualités collectés de 2011 à 2021
  • Liste des sites d'administration collectés de 2011 à 2021
  • Liste des sites sélectionnés par le département du Dépôt légal de 2011 à 2021
  • Liste des sites sélectionnés par le département Droit, économique, politique de 2011 à 2021
  • Liste des sites sélectionnés par le département Estampes de 2011 à 2021
  • Liste des sites sélectionnés par le département de l'Orientation et de la recherche bibliographique de 2011 à 2021
  • Liste des sites des collectes Jeux olympiques collectés de 2012 à 2021
  • Liste des sites sélectionnés par la Médiathèque centrale d'Agglomération Emile Zola de Montpellier en 2017 et 2021
  • Liste des sites sélectionnés par la Bibliothèque municipale de Nancy en 2017 et 2021
  • Liste des sites sélectionnés par la Bibliothèque nationale et universitaire de Strasbourg de 2013 à 2021
  • Liste des sites sur le thème des enjeux environnementaux collectés en 2021
  • Liste des sites sur le thème de l'intelligence artificielle collectés en 2021
Fiche Technique
Date de mise en ligne

Janvier 2020

Fréquence de mise à jour

Annuelle

Format

CSV RTF ZIP

Licence

Licence ouverte de l’état

Sujets

Sites web Archives de l'internet

Contact
depot.legal.web@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Liste des adresses URL des collectes du web électoral par la BnF

Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la BnF collecte régulièrement le web politique français.

CSV RTF ZIP Sites web Elections Archives de l'internet
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube