Liste des adresses URL de la collecte consacrée à l'épidémie de Covid-19 par la BnF
Présentation
Dans le cadre de sa mission patrimoniale de dépôt légal de l’internet, la BnF collecte régulièrement un échantillon du web français, constitué à partir de collectes larges et de collectes ciblées. Ces dernières regroupent les collectes « courantes » (pour les sites de référence sur un champ disciplinaire donné) et les collectes « projet » (portant sur un événement ou un thème particulier). Ce jeu de données contient les URL des sites, en lien avec l’épidémie de Covid-19, collectés dans le cadre de collectes ciblées, entre le 1er février et le 31 juillet 2020.
Contenu du jeu de données
Le jeu est constitué d’un fichier au format CSV rassemblant près de 4600 URL de sites, blogs, réseaux sociaux et vidéos. Ces contenus relatifs à l’épidémie de Covid-19 ont été collectés dans le cadre de la collecte Actualité éphémère, entre le 1er février et le 31 juillet 2020, soit de l’installation du virus, sur le sol français jusqu’à sa rémission, ce qui correspond à la fin de l’état d’urgence sanitaire (10 juillet 2020). Le fichier CSV comprend également des URL de sites collectés dans le cadre des collectes Vidéos et Instagram qui ont respectivement été réalisées en juin et en juillet 2020. Ces URL servent de point de départ à la constitution des archives de l’internet, consultables par les chercheurs dans les salles de recherche des différents sites de la BnF, ainsi qu’en accès distant dans les bibliothèques de dépôt légal imprimeur (BDLI), en région. La collection épidémie de Covid-19, consultable dans les Archives de l’internet Labs, regroupe, en plus des contenus collectés dans le cadre des trois collectes mentionnées ci-dessus, ceux réunis lors des collectes Presse payante et Actualités. Chaque URL est accompagnée d’informations descriptives (thème de la fiche ayant servi à réaliser la collecte, mots-clefs renseignés) et techniques (fréquence de collecte, historique de l'URL collectée) concernant la collecte. Il est cependant à noter que la fréquence de collecte indiquée dans le fichier CSV correspond à la dernière fréquence associée à l’URL du site à collecter. Cette colonne ne fait donc pas état des changements de fréquence qui ont pu intervenir au cours de la collecte.
Contexte de production
Etant donné le caractère imprévisible de l’épidémie de Covid-19 en France, cette collecte n’a pas été réalisée dans le cadre d’une collecte projet s’inscrivant dans un calendrier donné. Les contenus ont donc, dans un premier temps, été sélectionnés lors de la collecte Actualité éphémère. Cinquante-deux correspondants ont participé de manière directe à cette vaste collecte. Une partie d’entre eux appartiennent au réseau des correspondants internes de la BnF tandis que les autres sont rattachés au réseau des correspondants régionaux (qui travaillent dans quinze établissements partenaires en région). Par la suite, deux autres collectes ont été réalisées en juin et juillet 2020 ; il s’agit des collectes Vidéos et Instagram.
Formats
Le document principal est au format CSV et le texte d’accompagnement au format PDF. Le fichier CSV est encodé en UTF-8.
Télécharger
Fiche Technique
Date de mise en ligne26 novembre 2020
FormatCSV
Licence SujetsCovid-19 Sites web