Citer un jeu de données scientifiques

2 - Comment libeller la référence bibliographique d’un jeu de données ?

Citer un jeu de données consiste à construire sa référence bibliographique et à utiliser cette référence sous la forme d’une citation dans une publication. La référence qualifie de manière univoque le jeu de données

  • elle en identifie le (ou les) auteur(s) ;
  • elle permet de rechercher et de localiser le jeu de données sur internet ;
  • elle facilite l’exploitation et la réutilisation des données par d’autres équipes de recherche que celles des auteurs.

La référence bibliographique complète d’un jeu de données comporte les éléments suivants :

  • Auteur (Author) : créateur (Creator) du jeu de données
  • Date de publication (Publication Year) : selon les situations, date de mise en ligne du jeu de données ou date de fin d’embargo à l’issue duquel le jeu de données devient accessible
  • Titre (Title) : titre du jeu de données, et éventuellement titre de la collection ou de la sous-collection dont le jeu de données fait partie
  • Edition : niveau de traitement (par exemple 1e édition, édition révisée, etc.) du jeu de données, selon une nomenclature si possible appropriée au type de données concernées
  • Version : numéro croissant au fur et à mesure des modifications apportées aux données ou au processus de traitement
  • Nom de la norme, du standard, ou du modèle de référence des données (Feature Name)et son identifiant sur internet ou URI (Uniform Resource Identifier) : par exemple ISO 19101-1:2014 (https://www.iso.org/obp/ui/#iso:std:iso:19101:-1:ed-1:v1:en) si cette norme est utilisée pour référencer l’information géographique relative au jeu de données
  • Type de ressource (Resource Type) : base de données (database, voir la fiche CoopIST : Rendre publics ses jeux de données scientifiques), jeu de données (data set), logiciel (software), image, vidéo, etc.
  • Editeur (Publisher) : organisation produisant (Producer) ou rendant accessible (Distributor) le jeu de données
  • Identifiant (Identifier) : code identifiant le jeu de données de façon pérenne et univoque, par exemple un DOI (Digital Object Identifier, identifiant numérique d’objet – voir la fiche CoopIST : Identifier et rechercher une publication ou un jeu de données par son DOI)
  • Localisation (Location) : adresse URL où le jeu de données est accessible.

Le format minimal d’une référence bibliographique d’un jeu de données comporte cinq éléments (recommandation de DataCite, consortium international dont l’objectif est de faciliter l’accès aux données de la recherche et leur réutilisation) :
Auteur (Année de publication) : Titre. Editeur. Identifiant
Creator (PublicationYear): Title. Publisher. Identifier

Ce format minimal peut être complété, si besoin, par la version et le type de ressource :
Auteur (Année de publication) : Titre. Version. Editeur. Type de ressource. Identifiant
Creator (PublicationYear): Title. Version. Publisher. ResourceType. Identifier

La granularité d’un jeu de données complique son référencement et sa citation. Un grain correspond à un ou plusieurs fichiers, un fichier contenant un ou plusieurs tableaux, et un tableau contenant plusieurs données. Vous pouvez référencer le jeu de données au niveau de granularité auquel a été attribué l’identifiant par l’entrepôt. Si vous devez citer un grain plus fin, vous indiquerez dans le texte de votre publication les informations permettant au lecteur de retrouver le sous-ensemble concerné.

La dynamique d’un flux de données et la fugacité d’une donnée compliquent également le référencement (données météorologiques par exemple). L’auteur du jeu de données définira des versions successives de ce jeu, mémorisera et affichera la date et l’heure auxquelles les données observées correspondent afin que l’utilisateur puisse y faire référence dans sa publication.