Ouvrir ses jeux de données scientifiques

5 - Préparer ses données pour leur diffusion

Avant de déposer vos données dans un entrepôt, vous devez vous assurer qu’elles sont correctement mises en forme et documentées :

  • Rassemblez vos données et toutes les informations associées nécessaires pour permettre leur réutilisation et/ou la reproduction de la recherche. Les données diffusées peuvent être brutes (telles qu’enregistrées par l’instrument) ou dérivées (nettoyées, formatées, organisées). Pour être comprises, elles doivent être accompagnées de documentation (fichier README, dictionnaires de variables, méthodes et protocoles) qui décrivent le contexte de production des données et donnent les clés pour interpréter les fichiers (noms des variables, instrument et unité de mesure utilisés etc.). Le code des scripts d’analyse et de traitement des données peut également être nécessaire pour interpréter les résultats ou reproduire la méthode.
  • Vérifiez la qualité et la complétude des données : avant de déposer les fichiers de données dans l’entrepôt, assurez-vous qu'il n'y ait pas de données manquantes ou incorrectement présentées, ni de variables mal libellées. Les fichiers (scripts, fichiers d’archives etc.) doivent également pouvoir être exécutés et les images proposées dans une résolution suffisante pour permettre leur exploitation.
  • Éliminez les éléments non communicables dans vos fichiers de données : enlevez le contenu sous propriété intellectuelle, effacez les mentions de sites de collecte ou de localisation des espèces en danger ou vulnérables et retirez ou anonymisez les données sensibles ou personnelles permettant d’identifier les individus. Si ces actions ne sont pas possibles, certains entrepôts vous permettront de placer les fichiers qui ne peuvent pas être librement communiqués en accès restreint ou de créer une fiche descriptive des données pour signaler leur existence, sans y joindre de fichiers. Discutez-en avec les membres de votre projet et les services d’appui de vos établissements.
  • Organisez les données et documents : les noms de fichiers doivent être descriptifs et cohérents, afin que les futurs utilisateurs des données puissent s’y retrouver. Le principe de construction des noms de fichiers peut être explicité dans le fichier readme si nécessaire. Les fichiers peuvent également être organisés de manière logique dans des dossiers (si l’arborescence est gérée par l’entrepôt de données choisi) ou via la construction des noms de fichiers.
  • Convertissez si possible vos fichiers dans des formats ouverts plutôt que propriétaires, afin de permettre l’interopérabilité et une meilleure accessibilité aux fichiers dans la durée (par exemple, utilisez du .csv plutôt que du .xls, du .txt, .odt ou .pdf plutôt que du .doc etc.)
  • Complétez les métadonnées demandées par l’entrepôt choisi, en respectant le format demandé. La plupart des entrepôts demandent des informations générales, mais certains entrepôts comme le GBIF peuvent vous imposer de suivre un standard disciplinaire.

Utilisez les métadonnées pour faire le lien entre différentes ressources : les métadonnées permettent de faire le lien entre les jeux de données et les articles de recherche associés ou d’autres jeux de données liés. Elles permettent également d’y associer du code déposé sur une forge logicielle ou un protocole déposé sur un entrepôt spécialisé etc. Renseignez les liens et identifiants pérennes vers ces ressources accroît la visibilité de vos données et leur citation, et de futures collaborations. N’oubliez pas de mentionner le jeu de données dans les publications liées également : de plus en plus d’éditeurs vous demanderont un Data Availability Statement (DAS) pour que les lecteurs sachent comment obtenir l’accès à vos données (voir la fiche CoopIST : Distinguer dans un article les jeux de données produits des jeux de données cités).