search Le média de ceux qui réinventent l'entreprise

Comment Anonymiser - Pseudonymiser des données en open data ?

Comment Anonymiser - Pseudonymiser des données en open data ?

Par Jérôme Chagnoux

Mis à jour le 19 mars 2020, publié initialement en 17 avril 2018

Depuis quelques mois, vous n’entendez plus parler que du RGPD, le fameux Règlement Général sur la Protection des Données de l’Union européenne. Tout le monde vous sollicite pour savoir comment votre entreprise va se mettre en conformité… sans réellement comprendre ce dont il s’agit. Fournisseurs et consultants redoublent d’inventivité pour vous proposer de participer à des événements sur le sujet… qui ne font que survoler la chose.

Dans le panel des solutions de sécurité informatique, vous avez déjà mis en place le chiffrement et contrôlé finement les accès à votre système d’information. Aussi vous vous penchez sur l’anonymisation qui revient, avec la pseudonymisation, sans cesse dans vos discussions : comment faire ? Quelle organisation mettre en place ?

SOMMAIRE :

Une prise de conscience tardive

Il est étonnant d’avoir attendu l’avènement d’une contrainte réglementaire forte pour remettre en avant une discipline qui existe depuis si longtemps.

Il est donc légitime de se demander « Pourquoi ? »
« Pourquoi avoir attendu aussi longtemps ? »
« Pourquoi n’est-ce pas déjà fait ? »


… tellement il paraît évident aux yeux de tous les clients qu’on ne doit pas « jouer » avec ses informations personnelles.

Les explications sont nombreuses et, au final, n’intéressent que ceux qui vivent dans le passé.

Aussi, regardons la photo du présent : les entreprises partagent les données de production (celles nécessaires à leur activité quotidienne) afin de répondre à divers besoins :

  • Copier l’intégralité de la production pour permettre aux développeurs et aux administrateurs de tester les mises à niveau, les correctifs et montées de version,

  • Gagner en agilité et en compétitivité en développant de nouvelles fonctionnalités et modèles analytiques en travaillant sur un environnement le plus proche possible de la production,

  • Analyser des tendances (consommation, comportement, recherche médicale…) en partageant les données avec des consultants et chercheurs pour qu’ils y appliquent des modèles statistiques ou de Machine Learning.

En conséquence, des milliards de données clients (qu’importe leur niveau de sensibilité) sortent des environnements de production sans être protégées.

Le RGPD, un accélérateur pour la responsabilisation de tous les acteurs

Les études récentes des analystes sur la confidentialité des données tendent à montrer que les entreprises n’ont aucun moyen de savoir si des données sorties d’un environnement de production ont été compromises.

Je pense que le « Pourquoi ? » devient évident : nonobstant de toute contrainte réglementaire, celui ou celle dont on utilise les données personnelles sans savoir si elles seront partagées et compromises, c’est vous, c’est moi, ce sont nos enfants…

La protection de la vie privée est un droit fondamental garanti par la Déclaration universelle des droits de l'Homme.

Nous devons tous mettre en œuvre ce mécanisme qui assurera que nos données soient utilisées à des fins justifiées et limitées.

Voilà pourquoi nous devons tous, en tant que dirigeant d’entreprise, responsable de système d’information, mettre en œuvre ce mécanisme qui assurera que nos données soient utilisées à des fins justifiées et limitées.

Identifier les bons moyens de protection

Le RGDP n’est donc pas la réponse au « Pourquoi ? », mais peut être un début de réponse au « Comment ? ».

En premier lieu, le cadre réglementaire et, surtout, les sanctions pécuniaires et autres amendes qui y sont rattachées, sont un levier pour le financement de la mise en œuvre du projet d’anonymisation.

L’élaboration du registre des traitements, exigé par le RGDP, est un bon moyen pour localiser précisément où se trouvent les données personnelles dans le système d’information… ce qui permettra de savoir rapidement ce qui doit faire l’objet d’une anonymisation.

Ensuite, le règlement nous pousse à réfléchir avant tout à la nécessité de traiter des données personnelles et prône le principe de minimisation des données : « ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées ».

Par exemple :

Est-ce bien nécessaire d’avoir l’intégralité des données de production dans les environnements de développement, de qualification ou de formation ? Au final, n’est-ce pas trop coûteux et trop risqué ?


L’échantillonnage des données est une seconde réponse : réduire la surface de risque en sélectionnant (avec intelligence) un jeu de données représentatif, qu’on choisira d’anonymiser par la suite en fonction du besoin métier.

Le règlement propose également des mécanismes simplifiés, comme la pseudonymisation, qui consiste à remplacer la donnée personnelle par un pseudo, masquant de fait le rattachement à l’individu d’origine (si tant est que le lien entre le pseudo et l’individu ne soit pas trivial ou conservé).

Comment mettre en place l’anonymisation de données ?

Ceci étant, aucune de ces pistes n’oriente l’entreprise sur la façon dont elle doit s’organiser. Nous sommes peut-être là sur le nœud gordien de l’anonymisation :

  • « Dois-je anonymiser application par application ? »
  • « Que faire des applications qui partagent des données personnelles d’un même individu ? »
  • « Quel mode d’organisation va répondre aux exigences des métiers ? »
  • « Vais-je perdre en agilité dans l’évolution du système d’information ? »

Clairement, l’organisation est la clef de voûte du projet d’anonymisation et conditionne son succès.

Vous devez mettre en œuvre un « service d’anonymisation industrialisé » à même de répondre au besoin de toutes les équipes informatiques, qui seront les plus impactées :

  • avoir la capacité d’adresser toutes les technologies (en respectant leur règle de licensing et de support, bien sûr) ;

  • proposer un échantillonnage performant et intelligent : on ne se contente pas des 1000 premières lignes… on va chercher un jeu de données représentatif dans une source de données et dans les référentiels subsidiaires (pour garantir une intégrité référentielle entre applications) ;

  • garantir des niveaux de services performants : proposer des anonymisation « on demand » ou automatisées ;

  • mettre à disposition une librairie de format d’anonymisation complète (remplacement aléatoire, suppression de données, réécriture…).

Ce service d’anonymisation fera alors évoluer positivement dans les méthodes de travail des équipes informatiques, avec un impact minimum sur leur quotidien.

Bien choisir son outillage

Vous l’aurez compris, ce sujet n’est finalement pas conduit par la technique. Mais qu’en est-il de l’outillage ?

La littérature vous poussera à comprendre les différents algorithmes d’anonymisation, comme le « k-anonymat », la « l-diversité », la « t-proximité » ou la « confidentialité différentielle »… dont on jugera de l’efficacité et du niveau de protection qu’elle propose…

Autant d’outils à disposition des spécialistes pour mettre en œuvre la bonne anonymisation pour le bon jeu de données.

Je m’attarderai plutôt à retenir une solution industrielle d’anonymisation qui garantira :

  • une connectivité multi-source et multi-cible, afin d’être l’outil central et fédérateur de l’entreprise, garant d’une anonymisation respectueuse de l’intégrité référentielle inter-applicative ;

  • un assistant, qui permet de construire des flux d’anonymisation adapté au jeu de données (découverte des données sensibles dans la source, proposition des algorithmes adaptés, prévisualisation des résultats…) ;

  • une capacité d’automatisation des chaînes d’anonymisation afin de garantir des niveaux de service optimisés (traitement de nuit, rafraichissement de jeu de données à la demande…) ;

  • une simplicité de prise en main, afin que l’équipe en charge du service d’anonymisation puisse facilement et rapidement monter en compétence et en capacité.

Bien évidemment, la solution doit garantir qu’elle est, elle-même, en conformité avec les bonnes pratiques de RGPD : chiffrement, contrôle des accès des comptes à privilèges, supervision… car l’infrastructure d’anonymisation sera à la croisée des flux de données personnelles.


L’initiative « Data Masking Factory » de Oracle répond à ces exigences et s’inscrit dans le paysage du système d’information comme la solution agnostique et performante pour outiller le service d’anonymisation.

On ne plaisante pas avec les données personnelles

2018 est l’année du changement de paradigme : c’est l’ère de la prise de conscience que nos propres données personnelles sont celles que les entreprises manipulent avec trop de légèreté.

Chacun doit, à son niveau, intégrer et comprendre que le jeu avec les données est terminé.

Le RGPD vient en rappel des bonnes pratiques, parmi lesquelles l’anonymisation tient un rôle plus qu’important.

Au-delà du simple projet technique, c’est une organisation et un outillage efficaces qu’il faut pour fournir aux métiers un service d’anonymisation performant.

Jérôme Chagnoux

Jérôme Chagnoux,

Business Development Manager Sécurité / GDPR Champion chez Oracle France.

Jérôme CHAGNOUX, Ingénieur ESIEA de formation et Business Development Manager Oracle France, intervient depuis 2001 dans le monde de la CyberSécurité. Fort de l’expérience acquise aux contacts de nombreux clients français et internationaux, il propose une approche pragmatique de la sécurité, dans l’objectif d’aider chaque entreprise à isoler et éliminer les maillons faibles de leur sécurité pour relever leur niveau de protection.