Déposer des données de recherche dans un entrepôt

6 - Déposer ses données en pratique : exemple du Dataverse

Dataverse est un logiciel open source de création et de gestion d’entrepôts de données. Il a été développé par l’université Harvard, qui met en réseau les entrepôts Dataverse du monde entier avec son propre entrepôt Harvard Dataverse, généraliste et ouvert à tous.
Le dépôt de données comporte plusieurs étapes.

  • L’identification du déposant via son compte personnel (créé à la première connexion).
  • Le téléchargement du ou des fichiers, dans un format ouvert pour en assurer la lisibilité dans le temps.
  • La description complète des données, en renseignant des formulaires correspondant à différents standards de métadonnées :
    Métadonnées de citation : titre, auteurs, description synthétique, discipline(s) scientifique(s), thématique(s), mots-clés, publications liées, producteur des données, contributeurs, financeur(s) du projet, type(s) de données, etc.
    Métadonnées géospatiales : pour situer le lieu de recueil des données (si pertinent)
    Métadonnées disciplinaires : pour décrire spécifiquement les données à l’attention de sa communauté scientifique (sciences humaines et sociales, sciences de la vie, etc.).
  • Le choix des conditions de réutilisation des données, le plus souvent via l’attribution d’une licence (Voir la fiche CoopIST : Connaître et utiliser les licences Creative Commons). Dataverse propose par défaut la licence CC0-Domaine public, mais le déposant peut choisir d’affecter toute autre licence (Etalab, Creative Commons, etc.) à ses données.

L’accès aux fichiers peut être :

  • ouvert à tous
  • fermé temporairement, par exemple jusqu’à la parution de l’article tiré des résultats du projet
  • soumis à une demande d’accès, faite par l’internaute directement dans l’entrepôt et qui est transmise automatiquement à l’adresse de messagerie du déposant.

Une fois que le déposant a déposé les fichiers, qu’il a décrit les données avec les métadonnées, qu’il a défini le mode d’accès et les conditions de réutilisation, il rend publiques ses données. Elles deviennent alors visibles par tous dans l’entrepôt Dataverse concerné, avec un DOI - identifiant unique et pérenne (Voir la fiche CoopIST : Identifier et rechercher une publication ou un jeu de données par son DOI), et peuvent être citées (Voir la fiche CoopIST : Citer un jeu de données scientifiques).
Le Dataverse du Cirad permet ainsi aux chercheurs de l’institution de préserver, diffuser et valoriser les données de recherche qu’ils produisent ou coproduisent avec leurs partenaires du Nord et du Sud.