La confidentialité différentielle : une façon de garantir l’anonymat?
Cellulaires, téléviseurs, ordinateurs, réseaux sociaux... Notre hyperconnectivité nous permet d’accéder à une tonne de données personnelles alors même que nous sommes à la recherche de garanties fortes pour protéger notre vie privée. C’est le paradoxe que résout la confidentialité différentielle.
La confidentialité différentielle est une mesure de confidentialité employée lors du partage de données ou de leur analyse, utilisée par certains organismes et entreprises ou en recherche. Elle permet de « s’assurer qu’on n’apprend rien de plus sur vous [après que] vous avez accepté de partager vos données pour un projet ou une étude, explique la statisticienne Anne-Sophie Charest, professeure agrégée en statistique au Département de mathématiques et de statistique de l’Université Laval. En d’autres mots, cette mesure de confidentialité vous permet de fournir vos informations pour contribuer à des analyses statistiques, mais sans que vos détails personnels soient accessibles. »
Pour Anne-Sophie Charest, cette approche a plusieurs avantages par rapport à d’autres mesures de confidentialité utilisées dans le passé. Cette technique fait d’ailleurs l’objet de beaucoup de recherches universitaires et est également utilisée par certaines agences statistiques.
Une mesure de risque
Cette méthode plus formelle permet aussi de faire des distinctions importantes : « On ne parle pas uniquement de confidentialité au sens de protection de la vie privée, on parle ici de cette façon de traiter et de partager des données sans révéler l’identité des utilisateurs, en utilisant le bruit statistique, c’est-à-dire des modifications aléatoires apportées aux données d’origine ou aux résultats d’analyses », explique Anne-Sophie Charest.
Nichée, cette méthode de calcul n’est pas forcément utilisée dans tous les domaines du quotidien. On sait par exemple qu’elle a été utilisée pour transmettre des données dans un seul recensement de population aux États-Unis. Des géants de la technologie comme Apple ou Google l’ont aussi utilisée pour identifier certains comportements d’utilisation de leurs plateformes sans pour autant divulguer l’identité des gens. Les applications de géolocalisation comme Google Maps l’utilisent aussi pour recueillir des informations sur le trafic dans les villes.
Des avantages et des défis
La confidentialité différentielle a seulement l’avantage de fonctionner mieux que d’autres méthodes de calcul utilisées avant elle. « On peut facilement travailler mathématiquement avec cette définition comparée à d’autres méthodes de mesure de risque plus ad hoc ou moins formelles. Cela signifie que la méthodologie peut s’élaborer de façon rigoureuse en s’adaptant aux besoins », détaille Anne-Sophie Charest.
Par exemple, il existerait plus de 200 variantes de la méthode qui prennent chacune en compte différents besoins, modèles ou types de données, selon un article du magazine Pour la Science.
Qui dit avantage dit aussi défi, dont l’un des premiers est de s’assurer que ces variantes évoluent avec précision et rigueur à l’ère des données ouvertes et des différentes brèches de sécurité qui ne cessent de faire les manchettes.