Guide sur le triage des données ouvertes à Hydro‑Québec
Juin 2024
Juin 2024
Le Plan d’action 2035 – Vers un Québec décarboné et prospère d’Hydro-Québec permettra de réduire les émissions de gaz à effet de serre, de répondre à la croissance prévue de la demande d’électricité et d’offrir à la clientèle un service fiable, simple et abordable.
Notre plan nécessitera la mobilisation de plusieurs acteurs et un dialogue de fond avec la population québécoise. Nous devons être transparents, ouverts et mobilisateurs. Dans ce contexte, nos communications et nos relations externes deviennent d’autant plus importantes et complexes.
Pour ce faire, Hydro - Québec prévoit intensifier sa collaboration avec ses partenaires externes afin de résoudre des questions énergétiques prioritaires. Dans cette optique, la société d’État compte rendre publique une partie de ses données en vue de favoriser l’échange de connaissances et d’insuffler de la vitalité à l’écosystème de l’innovation.
L’initiative d’Hydro - Québec en matière de données ouvertes vise à permettre à des tiers de l’écosystème énergétique du Québec (tels que d’autres acteurs du secteur de l’énergie, les administrations municipales ainsi que le milieu de l’éducation et de la recherche) de valoriser les données ouvertes et partagées, et ce, en toute sécurité, afin de bonifier les produits et les services offerts.
Se tournant vers les pratiques exemplaires recommandées au Royaume-Uni, Hydro - Québec a choisi d’adopter et d’adapter le spectre des données de l’Open Data Institute (ODI) et le guide de triage des données de l’Energy Networks Association (ENA) pour améliorer son initiative actuelle. Ces deux ressources aident les organisations à fonctionner selon un principe de données « présumées ouvertes ». En vertu de ce principe, on considère d’abord les données détenues comme ouvertes, puis, à l’aide d’un processus de « triage des données », on évalue la présence de facteurs limitatifs exigeant un partage avec certaines restrictions ou la fermeture des données.
En 2023, Hydro - Québec a sollicité l’aide de l’ODI pour définir sa vision des données ouvertes. L’approche s’articulait autour de trois axes, soit l’utilisation d’un spectre des données, l’adoption de directives d’évaluation des risques liés à la publication de données ouvertes et l’intégration d’un processus de triage des données ouvertes au sein de la société d’État.
S’appuyant sur le guide de triage des données créé et publié en usage partagé sous licence Creative Commons par l’Energy Networks Association, le présent guide comprend plusieurs autres outils, méthodologies et cadres publiés par la communauté des données ouvertes. La version améliorée qui en résulte met un plus grand accent sur la valeur des données, l’éthique (y compris la gouvernance des données autochtones) et les licences de données ouvertes.
En 2019, le gouvernement du Royaume-Uni a créé un groupe de travail sur les données énergétiques. Celui- ci avait pour mission de formuler une série de recommandations sur la manière dont l’industrie et le secteur public peuvent travailler conjointement pour améliorer la disponibilité et la transparence des données en vue de favoriser la concurrence, l’innovation et la commercialisation dans le secteur de l’énergie.
Le groupe de travail a recommandé que les organisations du secteur de l’énergie adoptent le principe de « présomption d’ouverture », qui encourage les propriétaires et les gestionnaires de données à ouvrir au maximum les jeux de données. La meilleure façon d’illustrer ce concept est par le spectre des données, qui a été créé et publié ouvertement par l’ODI.
Les données ouvertes désignent les données que tout le monde peut consulter, utiliser ou partager. Ces données doivent être publiées sous licence ouverte, par exemple la Licence du gouvernement ouvert du Canada ou les licences proposées par Creative Commons utilisées par le gouvernement du Québec.
La plupart des données disponibles sont des données partagées, qu’on définit généralement comme des données accessibles en dehors de leur lieu de collecte ou de création, mais non dotées d’une licence ouverte. Les données partagées couvrent la plus grande partie du spectre. Il peut notamment s’agir de données transmises à une entité tierce dans le cadre d’un contrat d’accès nominatif ou d’accès à certains groupes (tel qu’une entente de partage ou un portail de données commerciales), ou encore de données publiées sur le Web en vertu de licences restrictives. Les licences interdisant l’utilisation commerciale ou la production d’œuvres dérivées sont des exemples de licences restrictives.
Chaque écosystème comporte des données qui doivent demeurer fermées (c’est- à- dire, qu’on ne doit pas partager en dehors de l’organisation) à des fins de protection de la vie privée, des intérêts commerciaux ou de la sécurité nationale. Cependant, il est possible d’en produire des versions agrégées ou anonymisées qui, elles, pourront être partagées ou ouvertes.
Selon le principe de présomption d’ouverture, les données doivent être les plus ouvertes possibles. Lorsque les données brutes ne peuvent pas être entièrement ouvertes, l’entité dépositaire devrait fournir une justification à l’appui de sa décision. Un processus formel devra être mis en place pour cerner les éventuels problèmes et les atténuer au besoin afin d’assurer une ouverture maximale des données. C’est ce qu’on appelle le triage des données ouvertes.
Le processus de triage des données ouvertes permet de repérer systématiquement les problèmes qui limitent l’ouverture d’un jeu de données, puis de trouver des techniques pour les atténuer. Fondé sur les pratiques exemplaires, ce processus s’aligne sur le processus de publication de données ouvertes suggéré par l’ODI.
Atténuation
Rétroaction
Source : energynetworks.org
Processus suggéré
1. Répertorier les jeux de données
2. Enregistrer les données dans le catalogue (titre, résumé, emplacement, propriétaire, etc.)
3. Évaluer les risques liés au partage des données
4. Déterminer les mesures d’atténuation et les mettre en œuvre, le cas échéant
5. Faire approuver le partage (cadre de haute direction/propriétaire de l’entreprise)
6. Documenter les résultats de l’évaluation des risques et conserver l’évaluation elle-même
7. Conserver les données réelles à un emplacement accessible de l’externe
8. Préparer les métadonnées de sorte à obtenir une URL permanente
9. Informer l’équipe des communications et l’équipe du soutien à la clientèle du moment où les données seront mises en ligne
10. Publier les données et les renseignements complémentaires
11. Tenir à jour, réviser et commenter les données, les métadonnées et les liens
12. Définir des cas d’utilisation et solliciter des commentaires
Source : theodi.org
Répertorier les jeux de données
La première étape du processus de triage et de publication des données ouvertes consiste à repérer un jeu de données qu’on estime pertinent pour des parties prenantes internes ou externes.
Un jeu de données pertinent devrait contenir :
• la source des données (appareil, personne, système) ;
• le domaine (technique, opérationnel, personnel, commercial) ;
• les caractéristiques temporelles et la granularité (période et fréquence de collecte, agrégation intrinsèque) ;
• l’emplacement (pays, région, domaine public/privé) ;
• d’autres attributs logiques (projet, service de l’organisation, etc.).
Il y a plusieurs façons de répertorier un jeu de données pertinent et de comprendre son rapport aux autres éléments de l’infrastructure de données (autres jeux de données, normes, technologies, politiques, organisations, etc.). Une méthode populaire, créée par l’ODI et publiée ouvertement, est la cartographie de l’écosystème des données. Dans la section suivante, vous apprendrez à cartographier votre écosystème de données afin de découvrir quelles sources mériteraient d’être publiées et qui en bénéficierait.
L’infrastructure de données peut être difficile à visualiser et à comprendre. Heureusement, il existe des outils qui aident à se représenter comment les données sont consultées, utilisées et partagées dans les organisations et les communautés.
Un écosystème de données se compose de toutes les personnes, communautés et organisations qui administrent des données, qui créent des contenus ou prennent des décisions à partir de celles- ci, ou qui influencent ou subissent les effets de telles activités. Une carte d’écosystème illustre tous les échanges de valeur au sein de l’écosystème, qu’ils aient trait aux données ou non.
La cartographie d’un écosystème de données peut permettre de comprendre et d’expliquer où et comment l’utilisation de données crée de la valeur. Elle peut aider à repérer les organisations clés qui collectent, administrent et utilisent les données, les relations entre elles et les différents rôles joués par chacune. La représentation des écosystèmes au moyen de cartes détaillées peut être particulièrement utile en présence de contextes complexes, mal compris ou en développement.
Les écosystèmes de données peuvent être cartographiés à différentes fins. Il s’agit essentiellement de représenter les flux de données et de valeur dans un secteur, un lieu ou un problème donné afin d’améliorer l’écosystème et, ultimement, de résoudre des défis communs (par exemple, des défis commerciaux ou sociaux).
D’après notre expérience, cartographier l’écosystème de données d’un système existant permet à l’ensemble des parties prenantes de voir comment chacune d’elles valorise les données. En outre, la cartographie aide à cerner les lacunes et les possibilités d’amélioration de l’écosystème en générant encore plus de valeur et en veillant à ce que celle- ci soit répartie équitablement.
Répertorier
Chercheurs universitaires
Connaissances
Décideurs politiques
Amélioration de la qualité de vie
Politiques
Entreprises
Données ouvertes
Cartographier les acteurs et les technologies
Commencez par ce que vous maîtrisez
Mettez-vous à la tâche en commençant par la partie de l’écosystème que vous connaissez le mieux. Nous vous recommandons de réfléchir aux organisations les plus pertinentes à votre cas d’utilisation, y compris la vôtre. À l’ordinateur ou à la main, représentez l’ensemble des personnes, des organisations et des services qui sont liés aux données d’une manière ou d’une autre. Pensez aux organisations et aux groupes qui possèdent des données dont vous avez besoin, à vos collaborateurs, à vos fournisseurs et à votre clientèle, car il s’agit de relations qui impliquent très probablement des flux de données. Utilisez des exemples très précis pour favoriser une représentation réaliste.
Voici des exemples d’acteurs à prendre en considération :
• Intendants et intendantes des données. Qui est responsable de la collecte, de la gestion ou de l’accès à un jeu de données ?
• Bénéficiaires. Personnes ou organisations qui bénéficient de l’écosystème de données parce qu’il leur permet de prendre des décisions.
• Entités contributrices. Personnes qui contribuent au jeu de données, consciemment ou non, en utilisant un service.
• Intermédiaires. Quels services apportent une valeur ajoutée à un jeu de données ? Y a-t-il des groupes qui agrègent les données dans l’écosystème ?
• Entités créatrices (ou personnes utilisatrices). Qui crée quelque chose à partir des données ? Il peut s’agir de la création de produits, de services, d’analyses, d’aperçus, d’histoires ou de visualisations.
• Entités régulatrices. Autorités qui créent et appliquent les cadres réglementaires.
• Décideurs et décideuses politiques. Personnes qui créent les politiques, les principes et les mesures.
Répertorier
Dessinez trois cercles à l’aide d’un tableau blanc ou d’une grande feuille de papier. Tracez toutes les personnes, organisations ou services qui sont liés d’une manière ou d’une autre aux données. Vous pouvez vouloir cartographier l’écosystème autour de vous et de votre rôle ou autour d’une organisation qui détient un ensemble de données spécifique, ou un cas d’utilisation spécifique des données.
Source : theodi.org
Cartographier les échanges de valeur formels
Maintenant que vous avez relevé quelques acteurs, cartographiez les flux et les échanges dans l’écosystème. Commencez par les données qui sont déjà partagées, ou utilisées par différents acteurs. Tracez des lignes et ajoutez des étiquettes pour indiquer quelles données sont partagées ou utilisées. Quels types de valeur ces flux de données alimentent-ils ? Tracez également des lignes pour les échanges de services et d’argent.
Pensez à d’autres types d’échange. Les acteurs au sein de l’écosystème fournissent-ils des documents, des services ou des biens physiques ? Y a-t-il des échanges d’argent, par exemple des frais liés à la prestation de services ? Ajoutez des flèches supplémentaires sur votre carte pour chacun de ces échanges.
Vous trouverez ci- dessous des exemples d’échanges de valeur formels que vous pourriez ajouter à votre carte.
• Données. Quels sont les jeux de données que vous cartographiez ? Quelle est leur source ?
• Rapports et documents. Y a-t-il des rapports et des documents pertinents qui soutiennent l’écosystème de données ?
• Biens physiques. Y a-t-il des biens physiques associés à l’écosystème de données ?
• Services. Quels sont les services pertinents pour l’écosystème de données ? Par exemple : transport, comptes bancaires, etc.
• Argent. Y a-t-il des charges ou des frais liés aux données, à leur conservation ou à leur partage ?
• Certifications. Quelles certifications s’appliquent à l’écosystème de données ? Par exemple : licences de données, permis d’exploitation et certificats de sécurité.
Commencez par les données : tracez des lignes et ajoutez des étiquettes pour indiquer quelles données sont partagées ou utilisées, et par qui. Ajoutez des flèches pour indiquer la direction.
Pensez à d’autres types d’échange. Ajoutez des flèches supplémentaires pour chacun d’eux afin de remplir votre carte.
Source : theodi.org
Cartographier les échanges de valeur diffus
Les données appuient la prise de décision en apportant de l’information et des connaissances. Or, les organisations peuvent également s’entraider au moyen de conseils ou de rétroactions.
Ajoutez ces types d’échanges de valeur intangibles à votre carte. Ceux- ci vous permettront de mieux comprendre les liens et les relations entre les organisations. Nous vous suggérons d’utiliser différentes lignes pointillées pour les distinguer.
Vous trouverez ci- dessous quelques exemples d’échanges de valeur diffus à considérer.
• Aperçus. L’aperçu obtenu à partir de l’écosystème de données, par exemple les périodes propices aux déplacements ou les méthodes d’affectation d’un budget.
• Connaissances. Y a-t-il des réseaux de connaissances qu’il serait utile de noter ?
• Soutien. Quel soutien est nécessaire pour tenir à jour l’infrastructure de données ? Il peut s’agir d’un soutien financier ou structurel.
• Rétroaction. Quels sont les mécanismes de rétroaction utilisés dans l’écosystème de données ?
• Conseils. Quels conseils les acteurs de l’écosystème donnent-ils ?
• Réseau. Y a-t-il un réseau plus vaste associé à l’écosystème de données ?
• Politiques. Quelles sont les politiques relatives aux données ou aux autres actifs de l’écosystème de données ?
Les données appuient la prise de décision grâce à la perspicacité et aux connaissances. Les organisations peuvent se soutenir mutuellement par des conseils ou un retour d’information.
Ajoutez ces types d’échange de valeurs moins tangibles à votre carte. Cela vous aidera à mieux comprendre les liens et les relations entre les organisations. Nous vous suggérons d’utiliser différentes lignes pointillées pour les distinguer.
Source : theodi.org
Trouver des occasions
Une fois la carte de l’écosystème terminée, vous pouvez la transformer en cas d’utilisation axé sur des données tangibles et la compléter par des jeux de données, des sources, des flux, des parties prenantes clés, des bénéficiaires et des types de valeur. La carte vous permettra d’expliquer facilement comment l’accès aux données et les discussions sur la hiérarchisation des cas d’utilisation génèrent de la valeur, et donc de déterminer les jeux de données à publier.
Pour aller plus loin
Si vous voulez obtenir de plus amples renseignements sur la cartographie des écosystèmes de données, notamment des conseils supplémentaires, des exemples de cartes et des cas d’utilisation, consultez la méthodologie et l’outil pratique de l’ODI sur son site Web. L’outil peut être téléchargé pour impression en format A4 (en anglais et en français) pour vous aider à structurer l’élaboration de votre carte.
Conseils Services
(échangedevaleurs «douce»)
Dessinez-les sur la carte de l’écosystème dans une couleur différente. Argent (échange de valeurs«formel»)
(échangedevaleurs «formel»)
Maintenant que votre écosystème est cartographié, quelles informations pouvez-vous en tirer ? Comment la valeur circule-telle dans l’écosystème ? Y a-t-il des possibilités futures de partager la valeur d’autres façons, par exemple en rendant les données plus ouvertes ou en offrant de nouveaux types de soutien ?
Source : theodi.org
En abordant la valeur des données dans une optique d’écosystème, on peut plus facilement comprendre et expliquer dans quels contextes et de quelles manières l’utilisation des données génère de la valeur. De plus, l’écosystème illustre les flux de données à valeur ajoutée ainsi que la circulation de cette valeur entre les différents fournisseurs et personnes utilisatrices de données.
Prenez l’exercice de cartographie lors duquel vous avez examiné les jeux de données qui pourraient être ouverts et leur valeur potentielle, puis transformez-les en cas d’utilisation de données ouvertes et hiérarchisez-les. N’oubliez pas que la valeur peut être de nature économique (comme la fourniture de services payants), sociale (comme l’amélioration des conditions de vie dans une ville) ou environnementale (comme l’amélioration de la qualité de l’air par la décarbonation).
Souvent, ces types de valeurs se chevauchent.
Tableau 1 : Matrice de hiérarchisation des cas d’utilisation d’un écosystème données ouvertes à Hydro‑Québec
Types d’avantages
Bien répartis
Mal répartis
Cas d’utilisation de faible valeur
Mise en œuvre facile, mais valeur globale inférieure
Développement peu probable
Cas d’utilisation de grande valeur
Priorité élevée
Coordination des efforts requise pour assurer la mobilisation de l’ensemble des parties prenantes
Source : theodi.org
Nous avons mis sur pied une matrice 2 × 2 simple qui peut aider les organisations et les consortiums à hiérarchiser les cas d’utilisation de leur écosystème afin de guider leur prise de décision. La matrice classe les cas d’utilisation selon leur valeur (grande ou faible) ainsi que selon la répartition de leurs avantages (bonne ou mauvaise). Par « cas d’utilisation où les avantages sont bien répartis », nous entendons les cas qui présentent suffisamment d’avantages pour que tous les acteurs, ou la plupart d’entre eux, aient envie de participer sans que l’organisation doive fournir un effort supplémentaire. Quant aux « cas d’utilisation où les avantages sont mal épartis », il s’agit des cas où certains acteurs essentiels risquent de ne pas être suffisamment motivés par les avantages offerts, ce qui nécessitera la mise en place de mécanismes incitatifs particuliers.
La matrice permet de regrouper les cas d’utilisation dans quatre catégories :
1. Les cas d’utilisation de grande valeur dont les avantages sont bien répartis, qui devraient nécessiter un minimum d’intervention au- delà de la simple mobilisation des parties prenantes pertinentes aux fins d’approbation de la mise en œuvre. Ces cas devraient recevoir la plus haute priorité.
2. Les cas d’utilisation de grande valeur dont les avantages sont mal répartis, qui peuvent nécessiter davantage de travail, notamment la mise en place de cadres de gouvernance, d’ententes commerciales ou de subventions à titre incitatif. Toutefois, comme point de départ, on peut faire valoir que la société (ou une industrie ou un secteur donné) bénéficierait de leur mise en œuvre. En plus de produire une analyse coûts- avantages théorique de la mise en œuvre de tels cas, il faudra par ailleurs évaluer les efforts de coordination qui seront nécessaires pour assurer la participation de toutes les parties prenantes concernées.
3. Les cas d’utilisation de faible valeur dont les avantages sont bien répartis, qui sont des cas d’utilisation peu prioritaires en raison de leur faible potentiel de valorisation. Cependant, comme ils nécessitent relativement peu de coordination supplémentaire, ils pourront être mis en œuvre lorsque l’écosystème aura atteint une certaine maturité ou que la majorité des cas d’utilisation de grande valeur auront été mis en œuvre.
4. Les cas d’utilisation de faible valeur dont les avantages sont mal répartis, qui sont peu susceptibles d’être mis en œuvre, car leur valeur potentielle ne justifie pas l’ampleur des efforts requis pour assurer la participation de toutes les parties prenantes.
Dans la présente sous-section, nous avons proposé une façon de classer et de hiérarchiser les cas d’utilisation directement dans l’écosystème en examinant la valeur apportée et les possibilités de répartition de cette valeur entre les parties prenantes. Toutefois, les organisations doivent également être en mesure d’analyser, individuellement, comment leurs données peuvent apporter de la valeur à l’écosystème élargi et comment elles pourraient bénéficier de cette contribution. La sous-section suivante présente un prototype de canevas conçu pour aider les organisations à effectuer de telles analyses.
Optionnel : Canevas de valorisation des données
Pour montrer aux organisations comment le partage ou l’ouverture des données qu’elles détiennent pourrait générer de la valeur, l’ODI a créé un canevas de valorisation des données. Celui- ci a pour but de structurer et de documenter les discussions ainsi que de guider la prise de décision. Le canevas invite les organisations et les équipes à se poser des questions, à discuter et à documenter leurs réponses au sujet des données qu’elles détiennent, de la valeur de ces données pour l’écosystème ainsi que de la répartition de la valeur dans l’organisation et les écosystèmes de données connexes. Il guide les organisations et les consortiums qui veulent estimer la valeurpotentielle associée à l’ouverture ou au partage des jeux de données dans leurs écosystèmes, en plus de les aider à trouver des moyens de concrétiser et d’encourager cette création de valeur.
Le canevas se compose d’une matrice comportant trois rangées et six colonnes. Chaque rangée porte sur un niveau différent de l’écosystème, la première invitant les équipes à s’intéresser à leur propre organisation et aux données détenues par celle- ci. Les discussions peuvent porter sur des questions telles que :
• Comment les données sont- elles recueillies ?
• En quoi ces données sont- elles utiles pour l’organisation ?
• Comment peut- on valoriser les données ?
Le deuxième niveau invite les équipes à examiner l’écosystème dans lequel leur organisation partage ou pourrait partager des données, ainsi que les acteurs présents dans cet écosystème. Il devrait aider les équipes à réfléchir aux acteurs qui consulteront les données ainsi qu’aux avantages que ceux- ci pourraient en tirer.
Enfin, le troisième niveau porte sur les incitatifs et les flux de valeur actuels ou potentiels au sein d’un écosystème. Il devrait favoriser les discussions autour de questions telles que :
• Qui bénéficie de la valeur ajoutée générée par l’amélioration de l’accès aux données ?
• Qui assume les coûts de la collecte, de la gestion et du partage des données ?
• Comment peut- on s’assurer que les échanges de valeur sont équitables ?
Si vous voulez découvrir comment les organisations peuvent évaluer la valeur sociale et économique potentielle du partage des données qu’elles détiennent ou auxquelles elles accèdent, consultez le rapport explorant la valeur sociale et économique du partage des données ou le guide d’utilisation du canevas de valorisation des données (disponibles en anglais uniquement).
Collecte de données Usages Avantages Actifs, capacités et jeux de données complémentaires
Coûts et risques Modèle d’accès aux données Organisation (pour vous familiariser avec vos données)
• Nommez les principaux jeux et sources de données que vous souhaitez évaluer.
• Ces jeux de données pourraient-ils aussi être générés par d’autres organisations ?
(pour vous familiariser avec votre écosystème)
Incitatifs et flux de valeur
(pour comprendre la circulation de la valeur)
• Quels acteurs pourraient vouloir recueillir ou consulter ces données ?
• Le cas échéant, quels acteurs pourraient être en mesure de produire ces données par eux-mêmes ?
• Quelles utilisations votre organisation fait- elle actuellement des données ?
• À quelles autres fins ces données pourraient- elles être utilisées par votre organisation ?
• Quels avantages ces données apportent- elles actuellement à votre organisation ?
• Quels avantages ou gains d’efficacité votre organisation pourrait- elle obtenir si l’accès à ces données était accru ?
• Dans quels actifs ou capacités complémentaires votre organisation pourrait- elle investir afin de tirer un plus grand avantage de ces données ?
• Quels jeux de données complémentaires pourraient accroître la valeur des données ?
• Quelles utilisations les autres acteurs pourraient-ils faire de ces données s’ils disposaient d’un meilleur accès ?
• Quels avantages ou gains d’efficacité pourraient être obtenus au sein de l’écosystème si l’accès aux données était élargi ?
• Quels actifs, capacités et jeux de données complémentaires sont compris dans l’écosystème ? Qui a accès à ces actifs, à ces capacités et à ces jeux de données ?
• Quels sont les coûts associés aux cas d’utilisation actuels et potentiels des données ?
• Quels risques découlent de la collecte, de la conservation et de l’utilisation des données ?
• Quelles parties des données votre organisation devrait- elle partager ?
• Comment votre organisation devrait- elle partager les données ?
• Quelles ressources les autres acteurs devraient-ils mobiliser pour obtenir autrement les données ou des données similaires ?
• Qu’est- ce qui empêche votre organisation d’élargir l’accès à des données qui pourraient être utiles à d’autres acteurs ?
• Comment pouvez-vous mesurer les avantages liés à l’utilisation et au partage de ces données ?
• Comment les avantages sont-ils répartis entre les différents acteurs de l’écosystème ?
• Comment peut- on mesurer la valeur des actifs, des capacités et des jeux de données complémentaires ?
• Quels sont les facteurs qui favorisent ou limitent leur développement ?
• Quels coûts votre organisation ou d’autres organisations auraient- elles à engager pour augmenter l’accès à ces données ?
• Quels risques pourraient découler d’un accès accru aux données ?
• En quoi les avantages potentiels compensent-ils les coûts liés à l’utilisation et à l’élargissement de l’accès aux données ?
• Quelles mesures votre organisation peut- elle prendre pour compenser ces coûts et atténuer les risques ?
• Qui devrait pouvoir accéder aux données ?
• Quel type d’accès pourrait être accordé à d’autres acteurs ?
• Quels mécanismes permettraient que les avantages liés à l’élargissement de l’accès compensent les coûts associés pour l’organisation qui partage les données ?
Source : theodi.org
Pour connaître les données à trier et, ultimement, à partager, il faut considérer celles qui les décrivent : les métadonnées. Au minimum, les métadonnées doivent être saisies ; or, il existe de nombreuses façons de documenter les données, par exemple en constituant un répertoire de données.
Un répertoire de données est une liste de jeux de données annotée avec des renseignements importants (appelés métadonnées) qui aident à comprendre pourquoi les données ont été recueillies, ce qu’elles contiennent, comment elles sont gérées et de quelles façons elles seront mises à la disposition d’autrui. C’est un outil utile pour tout projet ou organisation qui traite plusieurs types et sources de données.
Publié sous licence ouverte, un répertoire de données peut permettre aux personnes externes à l’organisation de rechercher et d’utiliser les données dont elles ont besoin. Le recours à une norme ouverte pour les métadonnées facilite le repérage et l’agrégation de jeux de données provenant de sources diverses.
Un répertoire de données peut offrir des renseignements utiles sur l’emplacement, la qualité, le cadre technique et le cadre juridique afin d’orienter la gestion, l’utilisation et le partage des données. Il peut également servir d’outil permettant d’accroître l’efficacité et d’atteindre les objectifs de l’organisation ou du projet. Par exemple, le catalogage des données dans un répertoire peut permettre :
• d’éclairer la prise de décision et de réaliser des gains d’efficacité ;
• d’aborder un problème précis ;
• d’améliorer la recherche de données ;
• de comprendre un écosystème en particulier ;
• d’établir la confiance ;
• de favoriser la collaboration ;
• d’améliorer la gouvernance des actifs de données ;
• de créer un registre conforme à la loi et de protéger les données personnelles.
La création et la tenue d’un répertoire de données constituent une étape importante si l’on veut traiter les données comme un actif. Les données peuvent ainsi être consultées, utilisées et partagées de manière à générer un maximum de valeur et à répondre aux besoins d’un projet, d’une organisation, d’un secteur ou de la société.
Un répertoire de données peut remplir différentes fonctions, par exemple faciliter le repérage des données, permettre leur consultation, leur utilisation et leur partage, soutenir la prise de décision ou assurer le suivi de la conformité réglementaire. Le catalogage peut donc répondre à une variété de demandes dont il faut tenir compte lors de la conception du répertoire.
Planifier la création du répertoire
• Pensez aux objectifs du répertoire. Cette réflexion vous aidera à définir le type et la portée des renseignements que vous souhaitez recueillir.
• Établissez votre définition de ce qu’est une « donnée » et décidez quoi inclure.
• Tenez compte de la durabilité et de la gouvernance du répertoire.
• Cernez et atténuez les risques.
• Mobilisez les personnes utilisatrices.
• Déterminez le degré de précision nécessaire.
Déterminer les attributs à recueillir
En gardant en tête l’objectif de votre répertoire, déterminez un ensemble d’attributs qui serviront à décrire les données. Ces attributs sont ce qu’on appelle les « métadonnées ». Ceux que vous choisirez dépendront des objectifs du répertoire et des personnes à qui celui- ci est destiné, tel que vous l’aurez défini dans la phase de planification. Les métadonnées indiquent aux éventuelles personnes utilisatrices ce qui peut être fait avec les données sur le plan technique et légal.
En 2021, l’Office of Gas and Electricity Markets (Ofgem), le régulateur de l’énergie au Royaume-Uni, a publié un guide des pratiques optimales en matière de données pour les réseaux d’énergie du pays. Les lignes directrices proposées sur l’utilisation des métadonnées par ces réseaux reposent sur la norme Dublin Core, dont la structure est présentée ci-contre.
Élément
Titre
Créateur
Sujet
Nom donné à la ressource
Entité principale responsable de produire la ressource
Sujet de la ressource
Description Énoncé descriptif de la ressource
Éditeur
Contributeur
Entité responsable de diffuser la ressource
Entité responsable de contribuer au contenu de la ressource
Date Période ou moment associé à un événement dans le cycle de vie de la ressource
Type Nature ou genre de la ressource, par exemple un groupe de données
Format Format de fichier, support physique ou dimensions de la ressource
Identifiant Séquence de caractères compacte qui établit l’identité d’une ressource, d’un organisme ou d’une personne, seule ou en combinaison avec d’autres éléments
Source Ressource associée d’où provient la ressource décrite
Langue Langue de la ressource (sélectionnée dans un vocabulaire convenu, par exemple l’ISO 639-2 ou l’ISO 639-3)
Relation
Ressource associée (par exemple, adresse URI ou DOI de l’élément associé)
Couverture Portée spatiale ou temporelle de la ressource, applicabilité dans l’espace ou autorité législative dont relève la ressource
Droits Renseignements concernant les droits associés à la ressource, tels qu’une licence ouverte
Entrer les données dans le répertoire
Selon la quantité de données à ajouter au répertoire et la disponibilité des sources de renseignements, vous devrez peut- être recourir aux techniques suivantes au moment de recueillir vos données :
• Déléguer à des intendants et intendantes des données déjà en poste.
• Mener des entretiens avec des intendants et intendantes des données ainsi que des gestionnaires de produits.
• Effectuer un sondage auprès des personnes utilisatrices.
Sur son portail de données ouvertes, le réseau de distribution UK Power Networks fournit un catalogue de données interactif qui répertorie les jeux de données disponibles sur le portail.
Le catalogue présente d’emblée des renseignements clés sur les jeux de données, par exemple une description, le créateur, les droits, la couverture et la possibilité de consulter les données dans un tableau, sur une carte ou dans une API. D’autres détails s’affichent lorsqu’un jeu de données est sélectionné. Le catalogue va au- delà des normes Dublin Core et comporte des renseignements utiles pour les personnes qui le consultent, tels que le degré de popularité du jeu de données.
Publier le répertoire pour qu’il puisse être trouvé
Publiez votre répertoire afin que d’autres personnes puissent le trouver, le consulter et l’employer. Dans la section Ressources et outils du présent guide, vous en trouverez un modèle comportant des renseignements clés.
Pour publier un répertoire de données, vous pouvez le mettre à la disposition de collègues au sein de votre organisation ou d’une équipe de projet, ou encore le mettre en ligne pour que des personnes externes puissent le consulter.
La publication d’un répertoire ne signifie pas nécessairement que tous les jeux de données qu’il contient sont accessibles. Toutefois, elle est un gage de transparence d’une organisation ou d’un projet quant aux données recueillies et utilisées par ses produits et services, et permet d’éclairer les décisions.
Si vous voulez en savoir plus sur la documentation des données et les aspects du partage qui s’y rattachent, consultez les guides de création d’un répertoire de données et les listes de vérification concernant la rédaction d’ententes de partage de données et l’élaboration d’un plan de gestion des données (disponibles en anglais uniquement), préparés par l’ODI, le Centre for Agriculture and Bioscience International (CABI) et la Fondation Bill & Melinda Gates, qui sont publiés sur le site Web de Gates Open Research.
L’évaluation des risques associés au partage ou à la publication des données est au cœur du triage des données ouvertes. Il en va de même de la définition de mesures d’atténuation appropriées, le cas échéant. La prochaine section fournit un cadre pour choisir ces mesures et prendre des décisions, mais le contexte de publication des données est propre à chaque organisation et exigera le recours à des experts et expertes à l’interne ainsi que dans la communauté élargie. À ce titre, les étapes du processus qui se rapportent à l’évaluation et à l’atténuation des risques comprennent l’approbation par la haute direction ou les propriétaires, de même que la documentation et la diffusion de l’analyse des risques et de ses conclusions.
Évaluer
Les risques se déclinent généralement en quatre catégories : les risques juridiques et réglementaires, réputationnels, les risques commerciaux et les risques éthiques. Les catégories de risque qui sont présentées dans ce guide sont générales et s’appliquent à tous les types de données (pas seulement aux renseignements personnels), et ce, indépendamment du domaine, du secteur ou de la région géographique. La présence de risques ne signifie pas forcément que le jeu de données doive être fermé, mais plutôt que certaines mesures pourraient s’avérer nécessaires pour réduire ces risques.
Risques juridiques et réglementaires
Les risques juridiques et réglementaires concernent les risques perçus ou réels – d’infraction aux lois sur la protection des données, aux lois sur la propriété intellectuelle ou à un quelconque règlement ainsi que de manquement à un contrat au sens de la loi – pouvant découler de la collecte, de l’utilisation ou du partage des données.
Dans cette catégorie, nous avons cerné d’importantes questions qu’il faut se poser :
1. Les données contiennent- elles des renseignements personnels ? Si la réponse est oui, il existe un risque que des personnes soient identifiées, ce qui pourrait leur causer du tort et constituer une infraction aux obligations légales, réglementaires ou contractuelles.
2. Les données concernent- elles une tierce partie, et avez-vous l’autorisation légale de les partager ? Lorsqu’une personne ou une organisation fournit un effort intellectuel pour créer quelque chose, par exemple, en prenant une photo ou en recueillant des données, la loi lui reconnaît des droits de propriété intellectuelle sur le résultat.
3. Y a-t-il d’autres éléments pertinents à considérer sur le plan du droit ou de la sécurité nationale ? D’autres considérations juridiques ou réglementaires peuvent émaner de la législation générale ou du contexte particulier de votre secteur (par exemple, des lois sur l’égalité, des demandes d’accès à l’information ou des demandes d’information environnementale). Vous devrez en tenir compte lors du partage des données. Évaluer
Les risques réputationnels comprennent le risque perçu ou réel d’entacher la réputation de l’organisation par un partage ou une utilisation des données qui brise le lien de confiance avec autrui ou par la révélation de limites dans les processus ou les analyses. Lorsque vous déciderez de partager ou non des données, le poids accordé à ce type de risque dépendra de l’importance qu’attache votre organisation au fait de se montrer digne de confiance dans sa gestion des données et ses pratiques connexes.
Les considérations relatives à la réputation peuvent comprendre ce qui suit :
• La gestion des attentes concernant l’utilisation des données. Les entités qui utilisent et partagent des données, surtout lorsqu’il s’agit de renseignements personnels, devraient considérer et orienter les attentes pour favoriser la compréhension et le consensus au sujet de l’usage qui est fait de ces données. Ainsi, les personnes concernées sauront davantage à quoi s’attendre en ce qui concerne les façons et les raisons d’utiliser des renseignements personnels, de même que les choix qui s’offrent à elles à ce chapitre.
• La qualité des données. La qualité peut représenter une préoccupation majeure pour les organisations, surtout en matière de partage de données. Le niveau de qualité requis pour chaque jeu de données varie selon l’objectif de la collecte, mais il relève généralement de plus d’une dimension. Par exemple, certaines décisions nécessitent que les données soient à jour, complètes et exactes, tandis que d’autres peuvent se contenter de données historiques agrégées.
• Le texte libre. Par définition, les champs de texte libre ne sont pas limités et peuvent contenir de longues notes. Ces zones de saisie peuvent donc facilement comporter des renseignements qui ne devraient pas être largement diffusés (par exemple, des descriptions, des notes de conversations, des opinions, des actions ou des commentaires de nature personnelle ou sensible).
Risques commerciaux
En matière de partage de données, les considérations commerciales sont bien souvent un facteur de motivation pour les organisations. Ces considérations comprennent les risques perçus ou réels de perdre un avantage concurrentiel sur le marché ou de diminuer ses revenus commerciaux.
Toutefois, le partage des données peut aussi se traduire par des avantages en matière de rentabilité. Pensons notamment à la stimulation de l’innovation, à l’optimisation des chaînes d’approvisionnement, à l’amélioration de l’accès au marché et à la génération de nouvelles connaissances. De nombreuses entreprises ayant choisi de partager des données constatent des retombées positives directes pour leur organisation et leur secteur.
Voici une question cruciale qui pourrait influencer votre façon de partager des données :
• Les données contiennent- elles des renseignements sensibles sur le plan commercial ? Ce genre de renseignements comprend toutes les données qui doivent être traitées avec prudence afin de limiter les effets néfastes du partage, et auxquelles il pourrait s’avérer nécessaire de restreindre l’accès. Parmi les facteurs à prendre en compte, notons les considérations relatives à la confidentialité commerciale et à la propriété intellectuelle, ou encore la possibilité d’octroi d’un avantage aux concurrents.
Les dernières décennies ont connu une augmentation de l’utilisation des données, ce qui a soulevé des questions sur l’équité, la responsabilité et la reddition de comptes en matière de données. De plus, le phénomène fait débat quant à savoir si les lois actuelles protègent suffisamment la vie privée, le bien- être et la sécurité des personnes et des groupes, de même que l’environnement.
Les risques éthiques font référence aux risques perçus ou réels de recueillir ou d’utiliser des données de façon contraire à l’éthique, ou de nuire directement à des personnes, à des communautés ou à l’environnement.
De plus en plus, les personnes qui recueillent, partagent et utilisent des données explorent les implications éthiques de leurs pratiques et, dans certains cas, sont contraintes de les remettre en question face aux critiques du public. En effet, les organisations subissent une pression croissante à faire rapport sur leur rendement en matière de développement durable et de responsabilités sociales.
La réflexion sur l’emploi éthique des données est particulièrement pertinente lorsque les conclusions ou les décisions fondées sur les données risquent de toucher les personnes et les communautés, que ce soit directement ou indirectement. Au moment de considérer les répercussions négatives dans leur ensemble, pensez aux personnes sur qui portent les données, aux personnes touchées par leur utilisation et aux organisations qui en font usage. Par exemple, l’utilisation des données pourrait- elle entraîner des décisions discriminatoires à l’égard de certains groupes ou personnes, ou mettre en jeu leur sécurité ?
Évaluer et atténuer les risques
Qu’ils soient conscients ou inconscients, les préjugés peuvent entraîner une sous-représentation de certaines communautés. Ils peuvent également leur causer du tort en conférant un avantage indu à d’autres groupes ou en limitant injustement leur accès aux données (par exemple, par des ententes exclusives). Il est donc important de considérer les effets potentiels des personnes et des groupes sociaux sur la collecte et l’utilisation des données, de même que les éventuelles conséquences.
En raison de leur complexité, les risques éthiques du partage de données peuvent être plus difficiles à comprendre que les risques juridiques et réglementaires, commerciaux et réputationnels. Il pourrait s’avérer nécessaire de recourir à l’expertise d’équipes internes ainsi qu’à des groupes et des communautés externes. Pour aider les organisations à aborder cette question, l’ODI a créé le canevas d’éthique des données, un outil qui soutient l’examen de l’éthique des données.
Le portail de données ouvertes du réseau de distribution UK Power Networks est un bon exemple des pratiques exemplaires en matière de données dans le secteur de l’énergie. La transparence est un élément important du portail, comme en atteste la grande quantité de documents pertinents qui accompagnent les jeux de données présentés. La bibliothèque de documents contient les évaluations de triage des données remplies pour tous les jeux de données qui sont passés par le processus, y compris ceux qui n’ont pas été partagés, ainsi que la justification le cas échéant.
Si vous voulez obtenir de plus amples renseignements, consultez le guide sur l’évaluation des risques lors du partage de données disponible sur le site Web de l’ODI, ou téléchargez la version alpha du cahier d’évaluation des risques en matière de partage de données de l’ODI (ressources en anglais uniquement). Le second comprend un processus guidé d’évaluation des risques lors du partage de données.
L’éthique des données est une branche de l’éthique qui vise l’évaluation des pratiques liées aux données étant susceptibles de nuire aux personnes et à la société. L’éthique des données porte sur les bons comportements à adopter lorsqu’on recueille, utilise et partage des données. C’est une notion particulièrement pertinente pour les initiatives de données ouvertes, car elle a pour but d’avoir un effet positif sur les personnes et la société, à la fois directement et indirectement.
Les pratiques de collecte et d’utilisation des données n’ont jamais été symétriques, ce qui a souvent entraîné une sous-représentation de certaines communautés dans certains jeux de données et leur surreprésentation dans d’autres. En conférant davantage de connaissances aux personnes en position d’autorité, d’influence et de force, cette asymétrie a amplifié les inégalités et les déséquilibres de pouvoir.
Pour atténuer les risques et les préjudices qui découlent de cette situation, il importe d’intégrer les principes de l’éthique dans toutes les activités relatives aux données :
• La gestion des données (collecte, tenue et partage des données). Les données recueillies, la méthode de collecte, les données exclues et les personnes qui ont accès aux données permettent de déterminer l’éventail des répercussions possibles, qu’elles soient positives ou négatives.
• La production d’information à partir des données, sous la forme de produits et services, d’analyses et d’idées, ou d’histoires et de représentations graphiques. La manière de communiquer cette information est à la fois déterminée par et déterminante pour les personnes qui bénéficient des données et celles qui en subissent les effets négatifs.
• La prise de décision sur la base de renseignements provenant de diverses sources, de l’expérience et de la compréhension. La prise de décision fondée sur les données est un outil puissant pour produire des effets tant positifs que négatifs.
Pour approfondir ces questions, vous pouvez recourir au canevas d’éthique des données, un outil destiné à toute personne qui collecte, partage ou utilise des données. Le canevas permet de cerner et de gérer les questions éthiques au début d’une initiative d’accès aux données et tout au long de la mise en œuvre.
Le canevas d’éthique des données fournit un cadre d’élaboration de lignes directrices éthiques qui permet d’aborder les sujets suivants dans n’importe quel contexte, quelle que soit la taille ou la portée de l’initiative :
• Données : pour comprendre les principales sources de données du cadre, le mode de partage des données, ainsi que les droits et les limites qui se rapportent au partage et à l’utilisation des données.
• Incidence : pour définir l’objectif du partage et de l’utilisation des données ainsi qu’en évaluer les effets négatifs et positifs chez les personnes, les communautés et les organisations.
• Interactivité : pour réfléchir au degré d’ouverture que permet le cadre de partage des données lui-même, aux données qui peuvent être publiées et aux interactions possibles avec les personnes utilisatrices.
• Processus : pour planifier la conception, la révision et l’évaluation de l’infrastructure de données, ainsi que les données qui seront utilisées.
Figure 10 : Canevas d’éthique des données
Sources de données
Nommez/décrivez les principales sources de données de votre projet, que vous collectiez les données vous même ou que vous y accédiez par l’intermédiaire de tiers.
S’agit-il de données personnelles ou de données autrement sensibles ?
Droits autour des sources de données
Où avez-vous obtenu les données ? Sont- elles produites par une organisation ou collectées directement auprès des individus ?
Les données ont- elles été recueillies pour ce projet ou à une autre fin ? Avez-vous l’autorisation d’utiliser ces données, ou une autre base sur laquelle vous êtes autorisé à les utiliser ? Quels sont les droits permanents de la source de données ?
Limitations des sources de données
Y a-t-il des limites qui pourraient influencer les résultats de votre projet ?
Réfléchissez à ce qui suit :
• un biais dans la collecte des données, l’inclusion/exclusion, l’analyse, les algorithmes
• les lacunes ou omissions dans les données la provenance et la qualité des données
• d’autres questions ayant une incidence sur les décisions, comme la composition de l’équipe
Contexte éthique et législatif
Quels codes éthiques existants s’appliquent à votre secteur ou à votre projet ?
Quelles lois, politiques ou autres règlements façonnent la façon dont vous utilisez les données ? Quelles sont les exigences qu’ils introduisent?
Réfléchissez à ce qui suit : l’État de droit ; les droits de la personne ; la protection des données ; les droits de propriété intellectuelle et les droits relatifs aux bases de données ; les lois antidiscriminatoires ; et le partage des données, les politiques, la réglementation et les codes/cadres d’éthique propres aux secteurs (p. ex., santé, emploi, fiscalité).
Mise en oeuvre continue
Intégrez-vous régulièrement dans votre projet les pensées, les idées et les considérations des personnes touchées ? Comment ?
Quelle information ou formation pourrait être nécessaire pour aider les gens à comprendre les problèmes liés aux données ?
Les systèmes, les processus et les ressources sont-ils disponibles pour répondre aux problèmes de données qui se osent à long terme ?
Votre raison d’utiliser les données
Quel est votre objectif principal pour la collecte et l’utilisation des données dans ce projet?
Quels sont vos principaux cas d’utilisation ?
Quel est votre modèle commercial ?
Est- ce que vous améliorez les choses pour la société ? Comment et pour qui ?
Remplacez-vous un autre produit ou service à la suite de ce projet ?
Effets positifs sur les personnes
Quels sont les individus, groupes, groupes démographiques ou organisations qui seront positivement touchés par ce projet ? Comment ?
Comment mesurez-vous et communiquez-vous l’impact positif ? Comment avez-vous pu l’augmenter ?
Effets négatifs sur les personnes
Qui pourrait être affecté négativement par ce projet ?
La façon dont les données sont recueillies, utilisées ou partagées pourrait- elle causer du tort ou exposer les personnes au risque d’être réidentifiées ? Pourraient- elles être utilisées pour cibler, profiler ou préjuger des personnes, ou pour restreindre injustement l’accès (par exemple, des accords d’exclusivité) ?
Comment les limites et les risques sont-ils communiqués aux gens ? Réfléchissez à ce qui suit : les personnes sur lesquelles portent les données, les personnes touchées par leur utilisation et les organisations qui utilisent les données.
Minimiser l’impact négatif
Quelles mesures pouvez-vous prendre pour minimiser les dommages ?
Comment pourriez-vous réduire les limites de vos sources de données ? Comment assurez-vous la sécurité des renseignements personnels et des autres renseignements de nature délicate ?
Comment mesurez-vous, signalez-vous et agissez-vous sur les impacts négatifs potentiels de votre projet ?
Quels avantages ces actions apporteront- elles à votre projet ?
Révision et itération
Comment les questions d’éthique des données en cours seront- elles mesurées, surveillées, discutées et mises en oeuvre ? À quelle fréquence vos réponses à cette toile seront- elles révisées ou mises à jour ? Quand ?
S’engager avec les gens
Comment les gens peuvent-ils s’engager avec vous au sujet du projet ?
Comment les gens peuvent-ils corriger des informations, faire appel ou demander des modifications au produit/service ?
Dans quelle mesure ?
Les mécanismes d’appel sont-ils raisonnables et bien compris ?
Communiquer votre objectif
Les gens comprennent-ils votre objectif –en particulier les personnes sur lesquelles portent les données ou qui sont touchées par leur utilisation ?
Comment avez-vous communiqué votre but ? Cette communication a-t- elle été claire ?
Comment vous assurez-vous que les personnes ou les groupes les plus vulnérables comprennent ?
Ouverture et transparence
Comment pouvez-vous être ouvert sur ce projet ? Pourriez-vous publier votre méthodologie, vos métadonnées, vos ensembles de données, votre code ou vos mesures d’impact ?
Pouvez-vous demander à vos pairs de faire de commentaires sur le projet ? Comment allez-vous le communiquer en interne ?
Publierez-vous ouvertement vos actions et vos réponses à cette toile ?
Partager des données avec d’autres
Allez-vous partager des données avec d’autres organisations ? Si oui, lesquelles ?
Prévoyez-vous de publier certaines des données ? Dans quelles conditions ?
Vos actions
Quelles mesures allez-vous prendre avant d’aller de l’avant avec ce projet ? Lesquelles devraient avoir la priorité ?
Qui sera responsable de ces actions, et qui doit être impliqué ?
Publierez-vous ouvertement vos actions et vos réponses à cette toile ?
Source : theodi.org
L’évaluation de l’éthique des données doit être réalisée dès l’établissement de la portée des activités, car elle aide à anticiper les conséquences positives et négatives. L’évaluation peut être réalisée par le personnel clé chargé des données, du projet ou du programme, par exemple les intendants et intendantes des données, les gestionnaires de données et les responsables de projet ou de programme. Elle doit toutefois faire appel à l’ensemble des parties prenantes concernées, telles que les responsables des résultats des activités et des objectifs organisationnels.
Il est impossible de prévoir toutes les conséquences possibles, mais les conséquences négatives ne doivent pas être ignorées : il faut savoir les reconnaître et les atténuer. Leur éventuelle acceptation doit se faire de manière consciente et transparente. Vous devriez refaire l’exercice périodiquement en incluant toutes les parties prenantes concernées, et non uniquement celles de votre organisation.
La réalisation d’un canevas d’éthique des données vous permettra de comprendre les risques éthiques liés à la publication ou au partage de données, de trouver des mesures pour réduire ces risques et de déterminer les étapes suivantes. Le canevas d’éthique des données rempli devrait être publié avec les autres documents de triage, tels que le registre des risques, afin d’assurer une transparence optimale pour les parties prenantes.
données autochtones
Les communautés autochtones du monde entier ont mis en place des pratiques de gouvernance de l’information pour faire valoir leurs droits quant aux données qui les concernent. Des groupes comme le Centre de gouvernance de l’information des Premières Nations (CGIPN), au Canada, ont établi des principes que devrait suivre toute personne travaillant avec des données sur les peuples autochtones.
Les principes de propriété, de contrôle, d’accès et de possession (PCAP®) prévoient de quelle façon les données et les renseignements sur les Premières Nations doivent être recueillis, protégés, utilisés et partagés. Les principes de PCAP® sont non seulement un outil qui appuie une solide gouvernance de l’information vers la souveraineté des données des Premières Nations, mais aussi un moyen d’éduquer les personnes qui souhaitent travailler avec les données sur les Premières Nations.
Pour aller plus loin
Si vous voulez en savoir plus sur l’éthique des données, consultez le canevas et le modèle de maturité connexe (disponibles en anglais uniquement) qui se trouvent sur le site Web de l’ODI. La section Ressources du présent guide comprend quant à elle un canevas d’éthique des données en format paysage.
De plus, la plateforme ODI Learning offre un cours gratuit, un cours d’introduction et un cours de calibre professionnel (en anglais).
Pour obtenir une formation sur les principes du PCAP®, visitez la page du cours en ligne Fondamentaux des principes de PCAP® sur le site Web du CGIPN.
Évaluer et atténuer les risques
Lorsque des jeux de données comportent des risques tels que ceux exposés dans les sections précédentes (commerciaux, juridiques et réglementaires, réputationnels et éthiques), il faut appliquer des mesures d’atténuation pour les réduire avant la publication ou le partage des données.
La présente section décrit certaines des mesures d’atténuation les plus courantes ainsi que le moment le plus approprié pour y recourir en fonction de la catégorie de risque. Sont également présentées quelques méthodes de manipulation des données permettant de désensibiliser ou de dépersonnaliser les données.
Tableau 3 : Mesures pour réduire au minimum les effets préjudiciables du partage
Catégorie de risques et risques particuliers
Risques juridiques et réglementaires
• Risque d’enfreindre les lois sur la protection des données et de divulguer desrenseignements permettant d’identifier une personne
• Risque de manquement à un contrat au sens de la loi
• Risque de violation d’autres lois
Risques éthiques
• Risque de préjudice pour la société et l’environnement naturel
• Risque d’atteinte à la sécurité nationale et à l’intégrité du personnel
Mesures pour réduire au minimum les effets préjudiciables du partage
Anonymisation
Une méthode courante pour atténuer les effets préjudiciables du partage de données est l’anonymisation, qui consiste à modifier un jeu de données de sorte à limiter au maximum le risque de réidentification. Les pratiques d’anonymisation actuelles sont multiples et variées, comme on peut le constater dans le tableau ci- dessous. Cependant, elles correspondent généralement à l’une de trois catégories, selon la technique employée :
1. Suppression : suppression d’identifiants ou de renseignements susceptibles d’entraîner la réidentification.
2. Généralisation : agrégation de données pour en diminuer le niveau de granularité, ou suppression de détails pour obscurcir les renseignements personnels.
3. Perturbation : ajout de bruit et modification des valeurs au point qu’il devient de plus en plus difficile de savoir comment des renseignements personnels peuvent être récupérés ou déduits, voire s’il est même possible de le faire.
Le tableau suivant présente les techniques de modification qui impliquent la suppression des renseignements sensibles dans un jeu de données. Beaucoup correspondent à une forme d’anonymisation ou de pseudonymisation. Ces techniques font partie d’un éventail plus large d’approches, appelées « technologies d’amélioration de la confidentialité », et peuvent aider à réduire les risques lors du partage ou de la publication de données.
Tableau 4 : Résumé de certaines techniques de modification employées pour supprimer des renseignements sensibles dans un jeu de données.
Rédaction
Pseudonymisation
Ajout de bruit
Suppression ou écrasement des attributs triés
Remplacement des attributs d’identification par un alias unique qui conserve la référence à une personne tout en brisant le lien avec son identité dans le « monde réel »
Combinaison du jeu de données d’origine avec des données aléatoires afin de dissimuler les attributs des données
Publication différée Report de la publication des données pendant une période déterminée
Confidentialité différentielle
Masquage des données
Agrégation
Translation ou rotation
Extraction ou création d’attributs
Segmentation des données
Algorithme ou modèle qui obscurcit les données d’origine pour limiter la réidentification
Procédé permettant de masquer les données d’origine en modifiant le contenu
Regroupement des données pour réduire la granularité de la résolution, des attributs temporels, des caractéristiques géospatiales ou des personnes
Modification de la position ou de l’orientation des données géospatiales ou chronologiques
Extraction des données ou génération de nouveaux attributs à partir des données afin de masquer les renseignements privés et les remplacer
Traitement des données par groupes
Suppression
Suppression/ perturbation
Perturbation
Perturbation
Perturbation
Perturbation
Généralisation
Perturbation
Suppression/ perturbation
Généralisation
Source : ENA, Data Triage Playbook , may 2021.
Vous trouverez peut- être utile de dresser une liste des raisons de recourir à certaines mesures d’atténuation ou technologies particulières selon le type de données susceptibles d’être publiées et selon l’écosystème élargi des politiques, des règlements et des considérations éthiques connexes. L’Energy Networks Association fournit un exemple d’arbre de décision dans son guide de triage des données. Vous trouverez également un arbre de décision interactif dans le guide d’adoption de technologies d’amélioration de la confidentialité du Centre for Data Ethics and Innovation
Données synthétiques
Une autre technique répandue pour dépersonnaliser les données et réduire les risques associés est la génération de données synthétiques. Issues d’un processus automatisé qui contient plusieurs modèles statistiques du jeu de données d’origine, ces dernières permettent que les données diffusées soient exemptes de renseignements personnels, et ce, même lorsque les données initiales comprennent beaucoup d’attributs identifiants. Les programmeurs et programmeuses, de même que les spécialistes en science des données, peuvent donc créer des logiciels et des algorithmes en sachant que ceux- ci fonctionneront de la même manière sur les données réelles. Un tutoriel pratique, destiné aux concepteurs et conceptrices ainsi qu’aux autres personnes qui travaillent avec des données, peut vous montrer comment utiliser Python pour créer des données synthétiques.
Si vous voulez en savoir plus sur l’anonymisation et les données synthétiques, consultez le rapport sur l’anonymisation et les données ouvertes qui se trouve sur le site Web de l’ODI. Le rapport s’inscrit dans un programme plus vaste sur les technologies d’amélioration de la confidentialité (disponibles en anglais uniquement).
On pourrait croire que le processus d’ouverture des données se conclut par leur publication, mais plusieurs étapes de préparation et de suivi sont nécessaires pour assurer la conformité aux pratiques exemplaires. Avant de publier les données, vous devez vérifier que les données réelles sont stockées dans un endroit accessible de l’externe, préparer les métadonnées pour obtenir une URL permanente et informer l’équipe des communications et l’équipe du service à la clientèle du moment où les données seront mises en ligne.
De plus, les données publiées doivent s’accompagner de la documentation pertinente, et les données, les métadonnées et les liens pertinents doivent être tenus à jour au moyen d’une boucle de maintenance, de vérification et de rétroaction. Cependant, l’étape la plus critique de l’ouverture des données est le choix d’une licence ouverte. C’est cette dernière qui permettra à l’entité créatrice de conserver ses droits d’auteur sur le travail ainsi qu’aux autres de comprendre comment copier, distribuer et utiliser les données.
Une licence ouverte comporte très peu de restrictions quant aux usages qu’on peut faire du contenu ou des données sous licence. Une licence ouverte permet notamment à d’autres personnes de :
• republier le contenu ou les données sur leur propre site Web ;
• générer de nouveaux contenus ou données à partir des vôtres ;
• gagner de l’argent en vendant des produits qui reprennent votre contenu ou vos données ;
• republier le contenu ou les données en facturant des frais d’accès.
Selon la définition du Savoir Libre de l’Open Definition, une licence ouverte ne peut imposer que deux types de restrictions :
• exiger que les personnes qui réutilisent le contenu ou les données reconnaissent la paternité de la source en mentionnant l’auteur;
• exiger que les personnes qui réutilisent le contenu ou les données publient toute donnée ou tout contenu dérivés sous la même licence (partage dans les mêmes conditions).
Une licence ouverte peut comporter l’une ou l’autre de ces restrictions, ou les deux. Il existe donc trois types de licences ouvertes :
• une licence du domaine public, qui n’impose aucune restriction (techniquement, ce genre de licence indique que vous renoncez à vos droits sur le contenu ou les données) ;
• une licence de paternité, qui mentionne simplement que les personnes qui réutilisent le contenu doivent attribuer la paternité du contenu ou des données ;
• une licence de paternité et de partage dans les mêmes conditions, qui stipule que la paternité du contenu ou des données doit être reconnue et que toute donnée ou tout contenu dérivé doit être partagé en vertu de la même licence.
L’Open Definition a été créée par l’Open Knowledge Foundation (OKFN) afin d’instaurer une norme d’ouverture pour les licences de contenu et de données. Les licences qui répondent aux exigences de l’Open Definition sont appelées « licences conformes », et l’OKFN recommande aux éditeurs de données ouvertes de faire leur choix dans la liste suivante, car les licences répertoriées sont :
• conformes aux principes énoncés dans l’Open Definition ;
• réutilisables, c’est- à- dire non spécifiques à une organisation ou à une région ;
• compatibles avec au moins une licence parmi les suivantes : GPL--3.0+, CC--BY--SA--4.0 ou ODbL--1.0. Les licences permissives et celles exigeant uniquement l’attribution de la paternité à l’auteur doivent être compatibles avec les trois licences susmentionnées et au moins une des licences suivantes : Apache--2.0, CC--BY--4.0 ou ODC--BY--1.0 ;
• actuelles, c’est- à- dire qu’il s’agit de pratiques répandues qui sont considérées comme optimales par une vaste gamme de projets et d’acteurs dans les domaines d’applicabilité de la licence.
Il convient de noter que la Licence du gouvernement ouvert –Canada 2.0 (LGO - Canada-2.0) est considérée comme une licence conforme, mais elle ne satisfait pas à l’exigence de réutilisation de l’Open Knowledge Foundation, puisqu’elle est réservée à un usage par le gouvernement fédéral canadien. La licence ne peut donc pas être recommandée par l’organisme. La Licence du gouvernement ouvert – Canada 1.0 (LGO - Canada-1.0), par contre, n’est pas reconnue comme une licence conforme.
Creative Commons Zero (CC0)
Open Data Commons Public Domain Dedication and Licence
Creative Commons Paternité 4.0
Open Data Commons Attribution Licence
Creative Commons Paternité –Partage dans les mêmes conditions 4.0 CC-BY-SA-4.0
Open Data Commons Open Database License
Source : opendefinition.org
Afin de favoriser la collaboration, l’échange et le partage ainsi que l’utilisation par tous des données ouvertes, le gouvernement du Québec ainsi que plusieurs municipalités ont adopté une licence commune de données ouvertes, soit la licence Creative Commons 4.0 (CC) qui se décline en six variantes.
des données sous
Optionnel : Mise en œuvre des principes FAIR
En 2016, la revue Scientific Data a publié les « principes directeurs FAIR pour la gestion et l’intendance des données scientifiques ». L’objectif était de fournir des lignes directrices pour améliorer la trouvabilité des actifs numériques, leur accessibilité, leur interopérabilité et leur réutilisation. L’application des principes FAIR aux données est reconnue partout dans le monde comme une pratique judicieuse permettant d’assurer la convivialité des données. Il ne sera peut- être pas possible de mettre en œuvre les principes pendant le processus de publication des données ouvertes ni immédiatement après, mais ils s’avéreront utiles dans une optique d’amélioration de l’utilisation des données. Les lignes directrices suivantes sont reprises directement des principes FAIR :
Faciles à trouver
Pour qu’on puisse utiliser des données, celles- ci doivent d’abord être trouvées. Les personnes et les systèmes informatiques doivent pouvoir repérer facilement les données et les métadonnées. Les métadonnées lisibles par machine sont essentielles à la découverte automatique de jeux de données et de services.
• F1. Les données sont assorties d’un identifiant unique permanent à l’échelle internationale.
• F2. Les données sont décrites au moyen de métadonnées riches.
• F3. Les métadonnées incluent clairement et de façon explicite l’identifiant des données qu’elles décrivent.
• F4. Les données sont enregistrées ou indexées dans une ressource dotée d’une fonction de recherche.
Lorsqu’une personne a trouvé les données, elle doit savoir comment y accéder.
• A1. Les données sont récupérables par leur identifiant au moyen d’un protocole de communication normalisé.
• A1.1. Le protocole est ouvert et gratuit, et on peut l’implémenter de manière universelle.
• A1.2. Le protocole permet une procédure d’authentification et d’autorisation au besoin.
• A2. Les métadonnées sont accessibles même quand les données elles-mêmes ne le sont plus.
Interopérables
La valeur des données s’accroît lorsque celles- ci sont combinées avec d’autres. En outre, les données doivent interopérer avec des applications ou des flux de travail afin de permettre l’analyse, la conservation et le traitement.
• I1. Les données sont rédigées dans un langage formel, accessible, partagé et largement applicable à des fins de représentation des connaissances.
• I2. Les données utilisent un vocabulaire conforme aux principes FAIR.
• I3. Les données comprennent des renvois à d’autres données.
Réutilisables
Le principal objectif des principes FAIR est d’optimiser la réutilisation des données. Les données et les métadonnées doivent donc être bien décrites pour qu’on puisse les reproduire ou les combiner dans différents contextes.
• R1. Les données sont décrites à l’aide d’une pluralité d’attributs précis et pertinents.
• R1.1. Les données sont diffusées en vertu d’une licence d’utilisation claire et accessible.
• R1.2. La provenance des données est détaillée.
• R1.3. Les données sont conformes aux normes de leurs communautés respectives.
Publier des données sous licence ouverte (suite)
Principes CARE pour la gouvernance des données autochtones
Parallèlement aux principes FAIR, qui visent à accroître le recours aux données par le milieu de la recherche et le monde universitaire, l’Alliance mondiale pour les données autochtones (GIDA, de l’anglais Global Indigenous Data Alliance) a créé les principes CARE pour la gouvernance des données autochtones. Ceux- ci ont pour but d’assurer le caractère éthique et équitable de l’utilisation des « données autochtones », qui concernent les personnes et les groupes autochtones ainsi que leurs relations aux non-humains.
Lorsque les données autochtones respectent les principes FAIR, les principes CARE devraient eux aussi être appliqués :
Collectivité
• Les écosystèmes de données doivent être conçus et fonctionner de manière à permettre aux peuples autochtones de tirer avantage des données.
Autorité
• Les droits et les intérêts des peuples autochtones quant aux données qui les concernent doivent être reconnus, et leur maîtrise de ces données doit être habilitée. La gouvernance des données autochtones permet aux peuples autochtones et aux corps dirigeants de déterminer comment leurs membres, leurs terres, leurs territoires, leurs ressources, leurs connaissances et leurs indicateurs géographiques sont représentés et identifiés dans les données.
Responsabilité
• Les personnes qui travaillent avec des données autochtones ont la responsabilité de divulguer la manière dont les données sont utilisées pour soutenir l’autodétermination et l’intérêt collectif des peuples autochtones. La reddition de comptes nécessite des données probantes pertinentes et accessibles témoignant de ces efforts et des avantages qui en découlent pour les peuples autochtones.
Éthique
• Les droits et le bien- être des peuples autochtones devraient être la préoccupation principale, et ce, à chaque étape du cycle de vie des données et dans tout l’écosystème des données.
Figure 11 : Principes CARE pour la gouvernance des données autochtones
Source : gida-global.org
Pour aller plus loin
Si vous voulez obtenir de plus amples renseignements sur les principes FAIR, consultez les pages consacrées aux principes FAIR et au processus de mise en œuvre des principes FAIR disponibles en anglais sur le site Web de GO FAIR. Pour en savoir plus au sujet des principes CARE, consultez le site Web de la GIDA.
Bien que la dernière « étape » du processus de publication de données ouvertes soit de définir des cas d’utilisation et de solliciter des commentaires, toute initiative de données ouvertes implique une relation dynamique entre les éditeurs de données et les personnes utilisatrices. Le caractère dynamique de cette relation garantit la création de valeur pour toutes les parties prenantes, en plus d’assurer la transparence et l’ouverture au sein de l’écosystème.
La boucle de communication décrit le dialogue constructif nécessaire pour bien comprendre ce que chaque partie requiert de la publication des données ouvertes ainsi que pour satisfaire les besoins relevés du mieux possible. Loin de se limiter aux préférences, elle implique plutôt une participation significative dans une optique d’amélioration, de collaboration et d’innovation.
Participation significative
Éditeurs de données
Dites-nous quels sont vos besoins en matière de données. Comment pourrait- on en faire un meilleur usage ?
Commentaires constructifs
Personnes utilisatrices de données
Approche centrée sur les personnes utilisatrices ; diffuser les données de sorte à faciliter leur consultation et à rendre leur utilisation plus efficace
La valeur qu’il est possible de tirer des données et des relations s’accroît lorsque les éditeurs de données et les personnes utilisatrices communiquent avec efficacité. De la même façon, la collaboration à un objectif commun, tel que l’amélioration de la réactivité face aux pannes dans une région ou la réduction des émissions de carbone, se révèle souvent avantageuse pour toutes les parties.
Ultimement, la publication de données doit être vue comme un service au même titre que tout autre service fourni par une organisation. Afin de créer le meilleur service qui soit, on obtient les résultats optimaux en sollicitant fréquemment l’avis des personnes utilisatrices et de la clientèle ainsi qu’en faisant preuve d’ouverture et de rigueur. Promu par les administrations municipales du monde entier, le cadre des « données-service » est aussi applicable à d’autres services publics. Selon ce cadre :
• les services d’accès aux données doivent répondre aux besoins des personnes utilisatrices ;
• ils doivent être durables et évolutifs ;
• ils doivent être conçus de manière itérative.
Le portail de données ouvertes de UK Power Networks fournit une liste des cas de réutilisation des données, c’est- à- dire de situations où « les données publiées sur le portail de données ouvertes de UK Power Networks (UKPN) ont été utilisées par une autre personne ou entreprise. Ces cas de réutilisation peuvent prendre différentes formes, par exemple l’emploi de données référentielles dans un autre système, l’affichage d’une vue géographique sur un téléphone intelligent ou l’inclusion de données dans des recherches universitaires » [traduction libre]. Le portail présente aussi des études de cas. Ces renseignements montrent la valeur du portail et constituent une source d’inspiration pour les personnes qui s’en servent. De plus, UKPN assure une communication dynamique en mettant à disposition des internautes un formulaire de demande de données, une FAQ, ainsi qu’une adresse courriel de contact.
Si vous voulez en savoir plus sur la mobilisation des personnes utilisatrices, consultez la trousse d’outils sur la publication de données centrées sur les personnes utilisatrices ainsi que le rapport sur les plateformes de données, les portails et la participation civique de l’ODI (disponibles en anglais uniquement).
Voici une liste de ressources, d’outils, de cadres, de méthodologies et de cours en ligne pour favoriser les pratiques optimales en matière de publication de données ouvertes. Beaucoup ont déjà été mentionnés dans le présent guide.
Approfondissement de la valeur des données
• Cartographie des écosystèmes de données : méthodologie – ODI :
• Outil de cartographie d’écosystèmes de données
• Webinaire sur la cartographie des écosystèmes de données
• Guide d’utilisation du canevas de valorisation des données – ODI
• Guide sur l’accès aux données – ODI
• Compétences stratégiques en matière de données –ODI Learning
Préparation au partage ou à la publication de données
• Lignes directrices sur la diffusion de données ouvertes de Données Québec
• Création d’un répertoire de données – Gates Open Research
• Conception d’ententes de partage de données : liste de vérification – Gates Open Research
• Élaboration d’un plan de gestion des données : liste de vérification – Gates Open Research
• Trousse d’outils sur le partage de données –Centre for Agriculture and Bioscience International (CABI)
Évaluation et atténuation des risques
• Guide de triage des données – Energy Networks Association
• Guide d’évaluation des risques liés au partage de données – ODI
• Canevas d’éthique des données – ODI
• Modèle de maturité éthique des données – ODI
• Guide d’adoption de technologies d’amélioration de la confidentialité – Centre for Data Ethics and Innovation (CDEI)
• Fondamentaux des principes PCAP® – CGIPN
• ODI Learning :
• Introduction à l’éthique des données
• Devenir spécialiste de l’éthique des données
• Formation sur l’anonymisation pour tout le monde
• Tutoriel sur l’anonymisation par données synthétiques à l’aide de Python – ODI
Publication des données
• Adhérer à Données Québec
• Liste de ressources sur la publication de données ouvertes – ODI
• Trousse d’outils sur la publication de données centrées sur les personnes utilisatrices – ODI
• Choisir une licence Creative Commons – Données Québec
• Comprendre les données ouvertes en un jour – ODI Learning
• Les principes FAIR – GO FAIR
• Les principes CARE – GIDA
• Cadre de maturité des données énergétiques ouvertes –UK Power Networks
• Certificats de données ouvertes – ODI