Logo BnF

API et jeux de données

fr
  • Accueil
    • Gallica
    • data.bnf.fr
    • Dépôt légal du Web
    • Catalogue collectif de France (CCFr)
    • Catalogue général de la BnF
    • Mandragore
    • BnF Archives et Manuscrits
    • Bibliographique des éditions parisiennes du XVIe siècle
    • Reliures
    • Données statistiques
    • Voir toutes les sources
    • Expérimentations
    • Projets de recherche
    • Tutoriels & outils
  • Services
  1. Vous êtes ici : Accueil
  2. Liste Des Adresses URL Des Collectes Du Web Électoral Par La BnF
CSV RTF ZIP Sites web Elections Archives de l'internet

Liste des adresses URL des collectes du web électoral par la BnF


Présentation

Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la BnF collecte régulièrement le web politique français. Ce jeu de données contient les adresses URL des sites capturés lors des collectes électorales depuis 2002, leur description (thème, mots-clés, autres éléments descriptifs), et des paramètres de collecte (fréquence d’archivage, historique de l'URL).

Contenu du jeu de données

Le jeu est constitué de 14 tableaux csv contenant environ 55 000 adresses URL de sites, blogs, comptes de réseaux sociaux relatifs aux 21 élections françaises - présidentielle, législatives, municipales, européennes, régionales et départementales - de 2002 à 2024 couvertes par la BnF. Chaque tableau de données regroupe les adresses URL collectées par année électorale, relatives à tous les scrutins qui s’y sont déroulés. Ces adresses URL servent de point de départ à la constitution des archives de l’internet, consultables par les chercheurs dans les salles de lecture de la BnF et d’établissements partenaires. Chaque adresse URL est accompagnée d’éléments de description (partis rattachés, niveau géographique, typologie utilisée pour la sélection, mots-clés attachés), et de ces paramètres techniques de collecte (profondeur et fréquence de collecte, historique de l'URL collectée).

Contexte de production

Dans le cadre des collectes électorales, la sélection des sites n’a pas vocation à l’exhaustivité. Elle est cependant menée depuis 2002 par de bibliothécaires des départements de collections de la BnF et d’établissements en charge du dépôt légal imprimeur. Un cadre de sélection commun sert à la constitution de la liste et  garantit la continuité des corpus ainsi que le pluralisme des sélections, dans un souci de neutralité politique et de représentativité des collections.

Le cadre de classement est le suivant :

Sites officiels et institutionnels

Les candidats et leurs organisations
Sites des candidats en campagne
Sites des formations politiques
Autres organisations de soutien

Regards et opinions sur la campagne
Annuaires, observatoires et analyses
Médias traditionnels
Associations, syndicats et autres organisations
Expressions individuelles et communautaires sur l’Internet

Les adresses URL sélectionnées servent de point de départ pour la collecte des sites, réalisée avec le robot Heritrix (http://crawler.archive.org). En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot paramétré par certains sites, également appelé robots.txt.

Formats

Listes en .csv et textes d’accompagnements en .rtf, compressés dans des dossiers en .zip

Pour 2024, la liste est également disponible en .xls

Télécharger
  • Liste des sites électoraux collectés de 2002 à 2024
  • Liste des établissements de dépôt légal imprimeur associés aux collectes du web électoral
Fiche Technique
Date de mise en ligne

Février 2020

Fréquence de mise à jour

Annuelle

Format

CSV RTF ZIP

Licence

Licence ouverte de l’État

Sujets

Sites web Elections Archives de l'internet

Contact
depot.legal.web@bnf.fr
Partage
Twitter Facebook Linkedin
Ressources en lien
Liste des adresses URL des collectes ciblées du web français par la BnF

Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la BnF collecte régulièrement un échantillon du web français, constitué à partir de collectes la

CSV RTF ZIP Sites web Archives de l'internet
  • © 2020 BnF
  • A propos
  • Conditions d'utilisation
  • Mentions légales
  • Politique de confidentialité
  • RSS
  • Écrire à la BnF
  • Accessibilité (non conforme)
  • DCAT
twitter facebook instagram youtube