Liste des adresses URL des collectes du web électoral par la BnF
Présentation
Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la BnF collecte régulièrement le web politique français. Ce jeu de données contient les adresses URL des sites capturés lors des collectes électorales depuis 2002, leur description (thème, mots-clés, autres éléments descriptifs), et des paramètres de collecte (fréquence d’archivage, historique de l'URL).
Contenu du jeu de données
Le jeu est constitué de 14 tableaux csv contenant environ 55 000 adresses URL de sites, blogs, comptes de réseaux sociaux relatifs aux 21 élections françaises - présidentielle, législatives, municipales, européennes, régionales et départementales - de 2002 à 2024 couvertes par la BnF. Chaque tableau de données regroupe les adresses URL collectées par année électorale, relatives à tous les scrutins qui s’y sont déroulés. Ces adresses URL servent de point de départ à la constitution des archives de l’internet, consultables par les chercheurs dans les salles de lecture de la BnF et d’établissements partenaires. Chaque adresse URL est accompagnée d’éléments de description (partis rattachés, niveau géographique, typologie utilisée pour la sélection, mots-clés attachés), et de ces paramètres techniques de collecte (profondeur et fréquence de collecte, historique de l'URL collectée).
Contexte de production
Dans le cadre des collectes électorales, la sélection des sites n’a pas vocation à l’exhaustivité. Elle est cependant menée depuis 2002 par de bibliothécaires des départements de collections de la BnF et d’établissements en charge du dépôt légal imprimeur. Un cadre de sélection commun sert à la constitution de la liste et garantit la continuité des corpus ainsi que le pluralisme des sélections, dans un souci de neutralité politique et de représentativité des collections.
Le cadre de classement est le suivant :
Sites officiels et institutionnels
Les candidats et leurs organisations
Sites des candidats en campagne
Sites des formations politiques
Autres organisations de soutien
Regards et opinions sur la campagne
Annuaires, observatoires et analyses
Médias traditionnels
Associations, syndicats et autres organisations
Expressions individuelles et communautaires sur l’Internet
Les adresses URL sélectionnées servent de point de départ pour la collecte des sites, réalisée avec le robot Heritrix (http://crawler.archive.org). En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot paramétré par certains sites, également appelé robots.txt.
Formats
Listes en .csv et textes d’accompagnements en .rtf, compressés dans des dossiers en .zip
Pour 2024, la liste est également disponible en .xls
Télécharger
Fiche Technique
Date de mise en ligneFévrier 2020
Fréquence de mise à jourAnnuelle
FormatCSV RTF ZIP
Licence SujetsSites web Elections Archives de l'internet