FAIR pratique

Findable

Page en cours de construction...

Findable (facile à trouver)

Le F correspond à la première étape des principes FAIR et permet de développer des bonnes pratiques autour de la découverte de la donnée et de la métadonnée associée. Ces dernières doivent être facilement trouvables à la fois par les machines et par les humains (comme rappelé dans les FAIR principles)

Identifiant pérenne et unique

L'identifiant pérenne et unique permet d’identifier une ressource mais aussi de la localiser de manière stable. Aussi, il facilite la citation du jeu de données. Il existe différents identifiants pérennes, le plus connu étant le DOI (Digital Object Identifier)
 

Métadonnée riche

Une métadonnée est un ensemble d’éléments visant à décrire une donnée, un jeu de données. Les métadonnées permettent de contextualiser la donnée décrite, d’y associer des protocoles mais aussi des contacts vers le propriétaire; de décrire les contraintes d'accès, de diffusion (licence...)

Les métadonnées vont donc à la fois rendre les données plus faciles à trouver mais aussi interopérables grâce aux différents standards utilisés.

Il existe différents standards de métadonnées qui permettront d'affiner la description selon, par exemple, la discipline dans laquelle vous évoluez.

Plan de gestion de données

Le Plan de Gestion de Données (PGD) ou Data Management Plan (DMP) est un document évolutif permettant d'indiquer toutes les informations relatives aux données :

  • Description des données
  • Formats et standards utilisés
  • Aspects juridiques
  • Licences et contraintes éventuelles d'accès
  • Stockage
  • ...

Il existe des modèles de PGD permettant de balayer toutes les rubriques nécessaires. Des outils tels que DMP Opidor vous aideront à trouver le modèle le plus approprié à votre projet.

Catalogue de métadonnées

Un catalogue de métadonnées se définit comme un répertoire qui indexe des données à travers leurs métadonnées de manière claire et lisible sous forme de blocs thématiques ou “collections”.

Pour InDoRES, cat.InDoRES est notre catalogue de métadonnées, un annuaire servant à répertorier de manière standardisée et interopérable les projets, jeux et bases de données.

 

 

Entrepôt de données

« Un entrepôt de données de recherche (Research Data Repository ou Data Repository) est une plateforme destinée à accueillir, conserver, rendre visibles et accessibles des données de recherche. Son rôle est de permettre le dépôt ou la collecte de données, leur description, leur accès, et leur partage en vue de leur réutilisation. » (CIRAD, 2020). https://doi.org/10.18167/coopist/0070)

Pour répondre à l’obligation faite aux établissements publics d’ouvrir à tous leurs données, les déposer dans un entrepôt de données de recherche permet non seulement de garantir l’intégrité, l’authenticité et la disponibilité de ces données mais également de partager les savoirs avec l’ensemble de la communauté qu’elle soit scientifique ou non. En effet, déposer vos jeux de données dans un entrepôt permettra de leur donner une plus large visibilité, ces derniers étant scannés par des outils de recherche spécifiques (type Data Cite search, Data Citation Index, etc.) et moissonnées par des catalogues, intégrateurs, infrastructures nationales et internationales de données.

Ces entrepôts peuvent être de différents types : généralistes, disciplinaires, thématiques ou institutionnels. Ils peuvent également être propres à un projet de recherche ou à un éditeur.

Le choix de l’entrepôt dépendra de la nature de vos données, du projet de recherche dans le cadre duquel elles ont été produites et/ou des objectifs que vous visez.  Cette étape est primordiale lorsque vous vous lancez dans un plan de gestion de données (PGD) puisque selon l’entrepôt, les normes liées au dépôt de vos données (formats entrée/sortie des données acceptés, thésaurus utilisés, etc.) peuvent diverger. Il est donc important de vous renseigner sur les fonctionnalités et les conditions d’utilisation de ces services.

Accessible

Page en cours de construction...

Accessible

Le A correspond à la seconde étape des principes FAIR et permet d'accéder aux données et aux métadonnées.

Accès aux métadonnées

L'un des principes reste la préservation de l'accès aux métadonnées. Même si les données ne sont plus accessibles en ligne, il est important de garder les informations relatives à ces données. Si un DOI a été apposé au jeu de données, l'obligation par Datacite d'une landing page restant en ligne permet de respecter ce principe d'accessibilité.

Plan de gestion de données

Le Plan de Gestion de Données (PGD) ou Data Management Plan (DMP) est un document évolutif permettant d'indiquer toutes les informations relatives aux données :

  • Description des données
  • Formats et standards utilisés
  • Aspects juridiques
  • Licences et contraintes éventuelles d'accès
  • Stockage
  • ...

Il existe des modèles de PGD permettant de balayer toutes les rubriques nécessaires. Des outils tels que DMP Opidor vous aideront à trouver le modèle le plus approprié à votre projet.

API

Une API (application programming interface ou « interface de programmation d'application ») est une “interface logicielle qui permet de « connecter » un logiciel ou un service à un autre logiciel ou service afin d'échanger des données et des fonctionnalités” (source CNIL).

Au cœur des stratégies de transformation numérique, ces applications permettent de centraliser les informations de plusieurs infrastructures (sites internet, logiciels, etc.) sans les contraindre à télécharger et héberger les données qu’il va moissonner, mais simplement en les mobilisant. But : conserver l’intégrité des données et leur contextualisation tout en permettant de ne pas alourdir le bilan carbone.

Protocole (standard)

L'ouverture en Open Access des  données de la recherche est possible grâce aux protocoles d’échange (API) qui facilitent le moissonnage et l’accès aux documents provenant d’entrepôts différents mais obéissant aux même règles d’échanges et utilisant les mêmes formats. Le protocole d’échange qui permet cela est OAI-PMH (Open Archive Initiative for Protocol Metadata Harvesting) avec son logiciel ORI-OAI.

Authentification

L’authentification à l’aide d’un identifiant (mail) et d’un mot de passe est importante pour naviguer en toute sécurité sur internet et protéger ses données personnelles. Dans le cadre d’InDoRES, nous utilisons eduGAIN, service d'interconnexion sécurisé des fédérations éducation/recherche au niveau international. Ce service fonctionnant comme un agrégateur de métadonnées, il permet de centraliser l’authentification et de vous enregistrer avec les mêmes identifiants que ceux que vous utilisez au sein de votre structure de recherche. Ainsi, sauf cas particulier (chercheur hors fédérations nationales et internationales utilisant eduGAIN), nous n’attribuons ni ne conservons d'identifiant de connexion par devers nous.

Interoperable

Page en cours de construction...

Interoperable

Les données doivent généralement être intégrées à d'autres systèmes, pouvoir discuter avec d'autres données. De plus, elles doivent interagir avec les applications ou les flux de travail pour l'analyse, le stockage et le traitement.

Métadonnée riche

Une métadonnée est un ensemble d’éléments visant à décrire une donnée, un jeu de données. Les métadonnées permettent de contextualiser la donnée décrite, d’y associer des protocoles mais aussi des contacts vers le propriétaire; de décrire les contraintes d'accès, de diffusion (licence...)

Les métadonnées vont donc à la fois rendre les données plus faciles à trouver mais aussi interopérables grâce aux différents standards utilisés.

Il existe différents standards de métadonnées qui permettront d'affiner la description selon, par exemple, la discipline dans laquelle vous évoluez.

Plan de gestion de données

Le Plan de Gestion de Données (PGD) ou Data Management Plan (DMP) est un document évolutif permettant d'indiquer toutes les informations relatives aux données :

  • Description des données
  • Formats et standards utilisés
  • Aspects juridiques
  • Licences et contraintes éventuelles d'accès
  • Stockage
  • ...

Il existe des modèles de PGD permettant de balayer toutes les rubriques nécessaires. Des outils tels que DMP Opidor vous aideront à trouver le modèle le plus approprié à votre projet.

Vocabulaire contrôlé

Les (méta)données doivent utiliser un langage de représentation des connaissances formel, accessible, commun et ayant un vaste champ d’application. Ainsi, utiliser un vocabulaire contrôlé et normalisé facilite la mise en relation des métadonnées entre elles et améliore la recherche documentaire.

Il existe plusieurs formes de vocabulaires contrôlés, qui s’étendent de leur présentation la plus simple, la définition des mots et expressions clés, à leur représentation la plus complexe, l’ontologie, en passant par les Thésaurus.

Ce vocabulaire contrôlé doit également répondre aux principes FAIR en étant “facile à trouver grâce à un identifiant pérenne et unique, documenté et lisible par les machines”. Cet identifiant unique, ou URI (de l'anglais Uniform Resource Identifier) est une courte chaîne de caractères identifiant une ressource sur un réseau de manière permanente, même si la ressource est déplacée ou supprimée.

Thésaurus

Un thésaurus est un répertoire structuré de mots-clés utilisés pour l'indexation de documents et la recherche de ressources documentaires. Comme une liste de mots-clés, c'est un instrument qui utilise une terminologie normalisée. Il contribue à aider l'utilisateur à sélectionner de manière logique des occurrences dans une base de données.

Son utilisation permet d’éviter les risques induits par les synonymies, les homonymies et les polysémies présentes dans notre langage quotidien et vise à faciliter la recherche documentaire. L'indexation grâce au thésaurus permet une homogénéité du mode d'indexation qui ne dépend alors plus de la culture de l'indexeur.

Un thésaurus peut être généraliste, thématique ou sémantique (relatif à une activité). Notons que certains d'entre eux sont multilingues tels que GEMET, ce qui permet d’obtenir une traduction précise et juste des termes de votre recherche. À l’heure actuelle de nombreux thésaurus existent pour référencer/indéxer au mieux les données de la Recherche en Environnement et Sociétés, dont vous trouverez quelques exemples ci-contre.

Standard de métadonnées

Un standard de métadonnées propose un ensemble d’éléments à utiliser pour décrire une ressource mais également la syntaxe à utiliser afin de renseigner le plus uniformément possible vos jeux de données. Afin de faciliter l’intéropérabilité entre systèmes, ces standards  ne sont pas personnalisables.

Dans le cadre de cat.InDoRES, nous utilisons la norme ISO 19115 utilisée pour les ressources spatiales ainsi que le format Dublin Core utilisé pour les portails d'opendata. Ce dernier propose un format standard d’organisation des métadonnées comprenant 15 propriétés de base relatives au contenu, à la propriété intellectuelle et à l’instanciation permettant de les rendre lisibles à la fois par les hommes et par les machines.

Reusable

Page en cours de construction...

Reusable (réutilisable)

La réutilisation des données est l'ultime étape des principes FAIR et les attentions portées sur les points précédents permettront d'y parvenir. Quelques principes faciliteront et encadreront la réutilisation.
Si vous souhaitez connaître quelques avantages à la réutilisation des données, vous pouvez consulter cette fiche pratique.

Licence

Le choix d’une licence est indispensable pour la diffusion et la publication de données de Recherche. Il faut donc clarifier le cadre juridique et s’assurer de choisir une licence adéquate.

Vous devez clairement signifier quels sont les droits légaux attachés à vos données. Bien entendu, la connaissance du cadre juridique et des obligations inhérentes à la fonction publique doivent être prises en compte.

Par défaut, si les données ne sont pas sous embargo et ne comportent pas d’éléments dits sensibles, on choisira une licence ouverte type Etalab ou Creative Commons, qui sont les recommandations faites dans le Plan National pour la Science Ouverte.

Vous pouvez utiliser l’outil interactif de Doranum qui vous aiguillera dans vos choix.

Si vous avez le moindre doute, nous vous conseillons de contacter le service juridique de votre établissement.

Vous trouverez cependant ici quelques éléments de contexte et d'information qui pourront vous aider dans votre choix.

Conditions d'utilisation et cadre juridique

Au-delà de la licence choisie, le cadre juridique vient émettre des contraintes et des restrictions.

Droit de propriété intellectuelle, droit moral, directive spécifique sur les données, RGPD ? La question est vaste est complexe.

Ces quelques ressources pourront vous aiguiller.

Plan de Gestion de Données

Le Plan de Gestion de Données (PGD) ou Data Management Plan (DMP) est un document évolutif permettant d'indiquer toutes les informations relatives aux données :

  • Description des données
  • Formats et standards utilisés
  • Aspects juridiques
  • Licences et contraintes éventuelles d'accès
  • Stockage
  • ...

Il existe des modèles de PGD permettant de balayer toutes les rubriques nécessaires. Des outils tels que DMP Opidor vous aideront à trouver le modèle le plus approprié à votre projet.

Restrictions d'utilisation et d'accès

Certaines licences Creative Commons (CC-BY) comportent des restrictions d’usage interdisant notamment les modifications (CC-BY-ND) ou adaptations de l’œuvre (CC-BY-SA) ou la réutilisation dans un cadre commercial (CC-BY-NC).

Dans le cadre d’une démarche d’ouverture des données (Open data), il est recommandé de ne pas utiliser les clauses NC (pas d’utilisation commerciale) ou ND (pas de modification) pour des jeux de données ou des bases de données destinés à une utilisation scientifique dans la mesure où elles restreignent les possibilités de réutilisation. De même, il est conseillé de ne pas utiliser la clause SA (partage à l’identique) car elle réduit les possibilités de compilation des données.

Dans tous les cas, il convient, avant publication dans un entrepôt, de vérifier les licences utilisées et s’assurer de leur compatibilité avec les lois en vigueur.