Mesurer l’impact des données de la recherche

4 - Découvrir des outils de mesure d’impact de données

Les mesures associées aux jeux de données s’inspirent de celles des publications scientifiques. Des modèles de mesure d’impact spécifiques aux données scientifiques sont à l’étude par les producteurs de bases de données ou par les fournisseurs d’information.

Les exemples suivants donnent une idée des différents types de sources d’information et des principaux indicateurs utilisés aujourd’hui.

Data Citation Index

Data Citation Index (DCI, Clarivate Analytics) est une base de données payante qui indexe une sélection d’entrepôts de données (Repositories), de jeux de données (Data Sets) et des données issues d'études (Data Studies) accessibles en ligne. DCI fournit deux types d’indicateurs d’impact :

  • Usage Count : indicateur de consultation affichant le nombre de fois où une référence d’un ensemble de données (Repository, Data Set ou Data Study) a été sauvegardée ou exportée à partir de la base DCI, ou bien dont le lien vers les données sources a été cliqué par l’utilisateur ;
  • Times Cited : nombre de fois où un ensemble de données référencé dans la base DCI a été cité par d’autres publications ou d’autres jeux de données dans l’une des bases de données de Clarivate Analytics (Web of Science, Biosis, Medline, etc.).

Google Scholar

Le moteur de recherche spécialisé Google Scholar indexe la littérature scientifique sur internet. A l’issue d’une recherche sur titre, nom d’auteur, titre de revue…, Google Scholar affiche le nombre de citations reçues par la publication recherchée :

  • Cited by : une recherche sur les métadonnées (titre, auteur, année de publication, source) d’un datapaper permet, si Google Scholar l’a indexé en tant qu’article de revue, d’afficher le nombre de fois où l’article a été cité et d’accéder à chacune des citations identifiées et dénombrées.

DataCite Statistics

Le consortium international DataCite facilite l’accès aux données de la recherche et leur réutilisation. Chaque membre du consortium est habilité à attribuer des identifiants numériques pérennes de type DOI à des ressources numériques telles que jeux de données, bases de données, logiciels, images, cartes, etc.

DataCite Statistics fournit des statistiques liées à l’utilisation en ligne de ressources numériques, comme les jeux de données, auxquelles ont été attribués par DataCite des identifiants numériques pérennes de type DOI. Le type et le nombre d’utilisations sur internet de ces ressources sont fournis par membre DataCite allocataire de DOI (Allocators), par centre hébergeant des données avec un DOI Datacite (Datacentres), et par producteur de données (Prefix) auquel DataCite attribue une adresse numérique univoque ou préfixe. Ce préfixe, accolé à l’identifiant de la ressource numérique, permet d’accéder à la ressource.

  • Les statistiques d'enregistrement (Registrations) se rapportent aux ensembles de données ayant un DOI DataCite, qui ont été téléchargés en ligne par un utilisateur.
  • Les statistiques de résolution (Resolutions) indiquent combien de fois un DOI a été utilisé pour accéder à la ressource numérique associée.

Entrepôts publics de données scientifiques

Des entrepôts de données (data repositories) offrent la possibilité aux chercheurs de déposer en ligne leurs fichiers de données pour les rendre accessibles sur internet (voir fiche CoopIST : Rendre publics ses jeux de données scientifiques). Le dépôt des fichiers et la saisie des métadonnées se font sur le même principe que pour une publication dans une archive ouverte (voir fiche CoopIST : Déposer ses publications dans une archive ouverte).

Certains entrepôts ont des fonctions de partage sur internet et de citation par les utilisateurs, et affichent les indicateurs associés. C’est le cas de l’entrepôt pluridisciplinaire Figshare (Royaume Uni), qui propose des liens pour discuter (Start the discussion), partager sur les réseaux sociaux la référence d’un fichier de données (Share), et pour le citer (Cite). Des indicateurs s’affichent sur la page de description des données entreposées :

  • Views : affiche le nombre de fois où la référence a été vue sur Figshare ;
  • Mentioned by : est représenté par un cercle affichant le nombre de tweets, de mentions dans les médias, sur Facebook, Twitter, Linkedin, Google+, etc. ;
  • Downloads : nombre de fois où le fichier de données a été téléchargé via Figshare ;
  • Citations : nombre de fois où la référence au jeu de données a été citée.

D’autres entrepôts fournissent des indicateurs d’impact plus spécifiques. C’est le cas de l’initiative internationale Global Biodiversity Information Facility (GBIF) qui donne la possibilité aux institutions participantes de tous pays de déposer en ligne et de rendre publiques des données sur la biodiversité (espèces animales et végétales) dans un entrepôt commun. L’entrepôt GBIF fournit des indicateurs de mesure d’usage et de citation assortis de résultats descriptifs en lien avec le périmètre d’intérêt et d’activités de la communauté GBIF :

  • Nombre de publications (articles, ouvrages, chapitres d'ouvrages, actes de congrès, rapports, thèses, etc.) évaluées par les pairs et en libre accès utilisant, publiant, ou citant des données de biodiversité issues de l’entrepôt de données GBIF (accessible via la section Literature du moteur de recherche sur les ressources GBIF : https://www.gbif.org/resource/search?contentType=literature)