Anonymisation
valibel |
Anonymisation.
Dans le milieu scientifique, le concept d’ « anonymisation » fait déjà l’objet de discussions animées. Ainsi, certains chercheurs notent que l’identité des participants ou des locuteurs de chaque corpus est immanquablement connue par ceux-ci ; dès lors, l’anonymat absolu n’est réalisé que dans des circonstances exceptionnelles. Ces chercheurs invitent donc à envisager l’anonymat comme un continuum s’étendant entre deux pôles : d’un côté, on trouverait l’anonymat absolu et, de l’autre, des données facilement identifiables. Cette vision « large » de l’anonymat met par ailleurs clairement en exergue le dilemme auquel font face les chercheurs. En effet, ceux-ci sont à la fois tenus de maximiser la protection de l’identité de chaque participant, tout en maintenant néanmoins la qualité des données recueillies.
Afin de résoudre ce conflit, certains chercheurs ont opéré une distinction entre « désidentification » (EN. De-identification) et « anonymisation » (EN. Anonymization). La désidentification consiste à repérer puis à retirer une série d’éléments d’information appartenant à des catégories prédéfinies (i.e. noms, prénoms, adresses). Tandis que l’anonymisation a une portée plus large puisqu’elle consiste également à masquer tout élément qui, s’il se trouve combiné à d’autres données, permet d’identifier des individus concernés. L’anonymisation impliquerait donc le traitement de l’ensemble des éléments d’information au sein des données permettant l’identification de certains individus.
Identifiants directs et indirects
Les éléments d’information peuvent être divisés en deux catégories : les identifiants directs (i.e. les éléments qui permettent une identification directe d’un individu, comme les noms rares, les métiers rares ou encore des caractéristiques rares) et les identifiants non directs ou sensibles (i.e. les éléments qui, pris séparément, ne permettent pas l’identification directe d’un individu mais, combinés les uns avec les autres, permettent de désigner un référent unique). Au terme du traitement des données, l’objectif est donc que chaque identifiant, pris séparément, puisse correspondre à de multiples personnes afin de garantir l’anonymat des participants impliqués. En d’autres mots, aucun participant ne doit pouvoir se reconnaître au sein des données traitées et diffusées et, par conséquent, aucune personne naturelle (EN. Identifiable natural person, ou data subject) ne doit ainsi pouvoir être identifiée (directement ou indirectement) par les usagers via un ou plusieurs identifiants (Article 4, EU GDPR).
Le RGPD, quant à lui, fait une distinction entre les données personnelles et les données sensibles. De manière large, les premières correspondent à l’ensemble des données qui peuvent être liées à une personne spécifique, c’est-à-dire les identifiants directs et indirects. Les données sensibles, quant à elle, font référence aux origines ethniques, à la vie sexuelle, aux convictions religieuses et philosophiques mais également aux données génétiques ou biométriques de chaque individu. Ces données ne peuvent en aucun cas être collectées ni traitées par quiconque. Il est important de préciser que des exceptions ont été mises en avant même si celles-ci sont soumises à des règles strictes.
Le texte du RGPD ne définit aucunement le concept d’anonymisation mais le mentionne dans le Recital 26 en spécifiant que les « données qui ne comportent pas d’identifiants [directs ou indirects] ne sont plus considérées comme des données personnelles et sont donc hors du champs d’action du RGPD ». Il existe cependant un risque que l’anonymisation n’ait pas été réalisée dans son entièreté, car les standards requis par le règlement sont assez élevés en ce qu’ils consistent en un « processus irréversible pour lequel l’individu ne peut pas être reconnu » (Recital 26). Afin de s’assurer que l’anonymisation a bien été réalisée, trois critères peuvent être vérifiés :
-
L’individualisation : est-il toujours possible d’identifier un individu ?
-
La corrélation : est-il possible de relier entre eux des ensembles de données distincts concernant un même individu ?
-
L’inférence : peut-on déduire des informations sur un individu ?
En ce qui concerne la pseudonymisation, celle-ci est mentionnée dans l’Article 4 (5), qui indique que les données pseudonymisées sont considérées comme des données personnelles et sont donc sujettes au RGPD. Le texte est cependant ambigu en ce qui concerne l’utilisation unique de la pseudonymisation afin de désidentifier des données. Un système en cascade est ainsi prévu par le RGPD :
-
Les données doivent être anonymisées de sorte que les personnes concernées ne puissent plus être identifiées ;
-
Lorsque les données n’ont pas été anonymisées, celles-ci doivent être pseudonymisées et tout en étant soumises au RGPD ;
-
Seulement lorsque le cryptage n’est pas possible, les données peuvent être utilisées tout en étant soumises au RGPD.
Différents logiciels ont déjà été mis en production afin d'anonymiser des données textuelles ou encore des images :
-
Données textuelles :
-
Donnés vidéo :
-
Données visuelles (e.g. images) :
-
Données orales :