Rendre publics ses jeux de données scientifiques

1 - Qu’ est-ce qu’ une donnée scientifique, un jeu de données, une base de données ?

Selon l’OCDE, les données scientifiques (ou données de la recherche, research data) sont « des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche. Ce terme ne s’applique pas aux éléments suivants : carnets de laboratoire, analyses préliminaires et projets de documents scientifiques, programmes de travaux futurs, examens par les pairs, communications personnelles avec des collègues et objets matériels (par exemple, les échantillons de laboratoire, les souches bactériennes et les animaux de laboratoire tels que les souris). »

Pour vous familiariser avec le concept de données de la recherche (Voir la la fiche CoopIST : S’initier en ligne aux données de la recherche et à leur gestion).

Un jeu de données scientifiques (data set) est l’agrégation d’enregistrements de données organisés pour former un ensemble cohérent. Les jeux de données numériques sont formatés de telle sorte qu’ils soient communicables, interprétables et adaptés à un traitement informatisé.

Pour être utilisé et cité, un jeu de données doit être accompagné de métadonnées descriptives : titre, producteur, ….

Certains jeux de données, annotés, revus par les pairs et mis à disposition deviennent des données de référence, par exemple les données génomiques disponibles dans la base de données GenBank.

Une base de données numérique (database) est constituée par un ensemble de jeux de données organisés et structurés pour être accessibles et exploitables au moyen d’un programme informatique.