Trouver des jeux de données via des bases pluridisciplinaires et des moteurs de recherche

2 - Les bases et moteurs de recherche pour trouver des jeux de données

Quels bases de données ou moteurs de recherche seront pertinents pour trouver des jeux de données sans avoir de connaissance précise sur les entrepôts susceptibles de les héberger ? Cela nécessite de connaître quelques caractéristiques de ces outils pour évaluer leur intérêt.

  • Le périmètre couvert : combien et quels types d’entrepôts de données sont moissonnés pour être indexés par la base de données ou le moteur de recherche ? Combien de jeux de données sont référencés ? Des informations précisant l’origine, les modalités d’accès et les fonctionnalités de l’outil de recherche sont un gage de transparence et de fiabilité.
  • Le mode de recherche : un formulaire de recherche avancée sur les différents champs d’un jeu de données est-il proposé ? Permet-il d’interroger par nom d’auteurs, organisme d’affiliation, année de publication, mots-clés ou mots du titre des jeux de données ? Des requêtes complexes sont-elles possibles, avec des opérateurs booléens, par exemple entre champs et entre les mots d’un même champ (voir la fiche CoopIST : Du sujet à l’équation de recherche) ? Des filtres sont-ils proposés pour limiter les résultats à un éditeur de jeux de données (Publisher), à l’entrepôt originel qui les contient (Provider), à la plate-forme d’où ils ont été collectés (Source), à un domaine scientifique, à un bailleur (Funder) qui a financé le projet de recherche ayant donné lieu aux jeux de données ?
  • Les fonctions d’affichage et d’export des références des jeux de données : les champs (c’est-à-dire les métadonnées telles que titre, auteurs, éditeur, année, résumé, etc.) décrivant les jeux de données sont-ils bien identifiés et permettent-ils que les références soient prises en charge par des logiciels bibliographiques comme EndNote ou Zotero (voir la fiche CoopIST : Citer un jeu de données scientifiques) ? L’éditeur de jeux de données (Publisher), l’hébergeur des données éditées (Provider) ou le site les collectant (Source), et le lien d’accès aux métadonnées du jeu des données et au(x) fichier(s) des données sont-ils identifiables ? Un lien internet est-il fourni vers la publication associée au jeu de données quand elle existe (URL, DOI – voir  la fiche CoopIST : Identifier et rechercher une publication ou un jeu de données par son DOI) ?
  • D’autres possibilités comme la création d’un compte personnel autorisant une connexion par authentification pour une gestion personnalisée (sauvegarde des résultats d’une recherche, export) sont appréciés par les utilisateurs plus aguerris.

Une sélection de bases de données et de moteurs académiques est proposée ci-après pour aider l’utilisateur à faire ses premiers pas dans la recherche bibliographique de jeux de données. Ces outils manquent encore de fiabilité car ils n’ont pas la maturité des bases de données bibliographiques de publications en termes de représentativité, de qualité et de pertinence.