Trouver des jeux de données via des bases pluridisciplinaires et des moteurs de recherche

4 - Dataset Search, le moteur gratuit de Google pour rechercher de données

Périmètre - Lancé par Google LLC (USA) en 2018 dans une version beta puis en 2020 dans sa version finale toujours gratuite, Google Dataset Search est présenté comme un complément de Google Scholar (voir la fiche CoopIST : Utiliser des moteurs de recherche académiques gratuits).
Dataset Search indexe les pages web dont les données (gouvernementales ou académiques) sont décrites selon le standard schema.org, avec les différents champs ou rubriques introduits par des balises textes (https://schema.org/Dataset).

Le 25 août 2020, Dataset Search déclarait sur son blog indexer 31 millions de datasets. Parmi les sites et entrepôts de données indexés issus de 4 600 sites internet : entrepôts institutionnels (Dataverse du Cirad), entrepôts thématiques (GBIF sur la biodiversité), sites de données administratives (data.gouv.fr), bases de données publiques internationales (OpenAIRE explore), réseaux sociaux (ResearchGate).

Mode de recherche - Le formulaire de recherche est simple, par mots. Des préfixes peuvent être utilisés pour rechercher un mot dans le titre (intitle:), dans le nom de site web (site:) ou dans une adresse de page web (inurl:).
Les résultats affichés peuvent être filtrés par période de mise à jour (depuis 1 mois, depuis 1 an…), par format de téléchargement du jeu de données (tableau, document, image, texte, archive…), par droit d’usage des données (commercial, non commercial), par thème, par accès gratuit. Le nom de la source avec un lien vers le jeu de données est fourni. Les descriptifs des jeux de données peuvent être enregistrés (via l’icône Ajouter aux favoris) dans son espace personnel après connexion et partagées sur les réseaux sociaux. L’icône A propos permet d’afficher quelques informations sur le moteur et l’icône Commentaires permet de poster une question ou un commentaire.

L’aide en ligne accessible après connexion à son compte Google s’adresse surtout aux développeurs de site web souhaitant que les jeux de données publiés sur leur site soient correctement balisés afin d’être indexés par Dataset Search.