
Ik ga hier iets zeggen wat misschien heel gek overkomt als ontwikkelaar van software die als doel heeft data privacy te beschermen. Een technische oplossing alleen biedt onvoldoende bescherming. Zo dat is eruit. De reden waarom ik dit zo expliciet benoem komt door het verschijnen van een publicatie van TNO een kleine twee maanden geleden. Deze kondigt moedig aan dat ze eindelijk de ultieme privacy vriendelijke manier gevonden hebben om met privacy gevoelige data om te gaan. Sterker nog, er wordt zelfs aangegeven dat door het gebruik van de genoemde technieken (waarover later meer) de privacy van individuen gegarandeerd kan worden gedurende onderzoek en analyse op deze gegevens. Hierbij wordt jammer genoeg wel compleet voorbij gegaan aan het feit dat data privacy bescherming meer is dan alleen een technische oplossing.
Technische mogelijkheden dragen bij aan data privacy bescherming…
Uiteraard is het zo dat technologische mogelijkheden sterk bij kunnen dragen aan de bescherming van data privacy. Er is ook veel ontwikkeling op dat vlak wat er voor zorgt dat we meer mogelijkheden krijgen om data voldoende te beschermen en tegelijkertijd de data bruikbaarder houden. Een van de grotere uitdagingen die steeds actueler wordt is het beschermen van privacygevoelige gegevens die tussen organisaties uitgewisseld worden. Dit scenario wordt steeds actueler aangezien veel organisaties ontdekken dat er veel meerwaarde zit in het koppelen en analyseren van data over organisaties heen. De onderstaande afbeelding laat een voorbeeld van een dergelijke data uitwisseling zien tussen organisaties waarbij op een centrale plek analyses en onderzoek plaatsvindt.

Hoewel we relatief gemakkelijk ervoor kunnen zorgen dat de uitwisseling van gegevens veilig gebeurd, kan er wel een situatie ontstaan waarbij één, of meerdere, partij(en) een grote samengestelde dataset creëert waarop deze analyses uitvoert. Door veel privacygevoelige gegevens – van verschillende partijen – samen te voegen neemt het risico op re-identificatie van personen toe. Immers, hoe meer kenmerken we van een persoon in ons bezit hebben, des te makkelijker wordt een mogelijke identificatie door de unieke combinatie van de kenmerken.
Traditioneel kunnen we ervoor zorgen dat een dergelijke data uitwisseling met privacygevoelige gegevens beschermt wordt door deze bijvoorbeeld te anonimiseren voordat deze aangeleverd wordt. Dit vereist echter een goede voorbereiding om ervoor te zorgen dat de data voldoende anoniem is en tegelijkertijd bruikbaar blijft. Daarnaast dient er natuurlijk goed afgestemd te worden welke data er gedeeld gaat worden om te voorkomen dat er teveel kenmerken uitgewisseld worden.
In de publicatie van TNO worden twee technieken specifiek benoemd als de oplossing voor data privacy gerelateerde uitdagingen op het gebied van gegevensuitwisseling: Federated Learning en Multi-Party Computation. Beide van deze technieken hebben als doel om de analyse naar de data te brengen in plaats van de data naar de analyse.
Federated Learning
Bij Federated Learning (FL) worden statistische analyses – met name gericht op machine learning – die je normaal gesproken op de samengestelde dataset zou uitvoeren opgeknipt in berekeningen die door de aanleverende partijen lokaal kunnen worden uitgevoerd. Het grote voordeel hiervan is dat alleen de uitkomsten van de berekeningen met elkaar gedeeld worden en niet de data zelf. Hierbij verlaat privacygevoelige data niet meer de organisatie, wat uiteraard een groot voordeel heeft op het gebied van dataprivacy bescherming. De afbeelding hieronder laat zien hoe FL toegepast kan worden.

Hoewel FL een ideale oplossing lijkt, heeft het ook een aantal beperkingen. De belangrijkste hiervan is dat niet alle analyses geschikt zijn voor het gebruik binnen FL. Op dit moment zijn de toepassingen met name gericht op machine learning algoritmes maar niet op traditionele analyses van data die je bijvoorbeeld terug ziet komen in een data warehouse. Daarnaast is het zo dat het trainen van algoritmes in een FL setting aanzienlijk meer tijd in beslag neemt aangezien lokale resultaten samengevoegd moeten worden om het uiteindelijke – samengestelde – resultaat te toetsen.
Een laatste belangrijke beperking die speelt is dat FL op zichzelf niet persé veilig genoeg is. Het is namelijk mogelijk om de (tussentijdse) algoritme resultaten te gebruiken om alsnog personen in de dataset te identificeren. Om dit probleem op te lossen kan Multi-Party Computation gebruikt worden.
Multi-Party Computation
In het geval van Multi-Party Computation (MPC) wordt er in essentie een extra beveiliging toegevoegd binnen het Federated Learning concept. Aangezien een van de nadelen van FL is dat je via de tussentijdse berekeningen van de algoritmes alsnog mogelijk een persoon zou kunnen identificeren, richt de extra bescherming zich op dat gebied. Met MPC wordt het algoritme, de input en de output van het algoritme versleuteld. Hierdoor is het niet mogelijk om tussentijdse data in te zien. Pas op het moment dat alle versleutelde uitkomsten samen gevoegd worden kan de uitkomst hiervan ingezien worden. Alleen de uitkomst is dus zichtbaar. TNO gebruikt in deze video een simpele animatie om deze methode uit te leggen.
Net als FL heeft MPC als grootste nadeel dat het hoge kosten met zich meebrengt op het gebied van processor en uitwisseling/opslag gebied. Deze kosten liggen in het geval van MPC nog hoger aangezien er ook veel encryptie handelingen mee gemoeid zijn om de data te versleutelen.
…maar er komt meer kijken dan alleen techniek
Hoewel bovengenoemde technieken absoluut een stap in de goede richting zijn om op een privacy vriendelijke manier data te kunnen gebruiken voor analyse en onderzoek, zijn ze op zichzelf geen oplossing voor de data privacy uitdaging . Zo kun je namelijk de mooiste MPC infrastructuur en processen ingericht hebben, maar op het moment dat er geen doelbinding is voor de analyse van de privacygevoelige data overtreed je alsnog de wet- en regelgeving van de AVG. Daarnaast ontslaan dergelijke technieken je nog steeds niet van het feit dat je het maximale moet doen om privacygevoelige gegevens te beschermen, ook al verlaten ze je eigen organisatie niet.
Doordat deze technieken nog behoorlijk nieuw in hun toepassing zijn, zijn ze (nog) lang niet voor ieder gangbaar probleem in te zetten. Laten we eerlijk zijn, veruit de meeste organisaties hebben hun pijlen gericht op lokale – relatief simpele – analyses waarbij machine learning of gegevensuitwisseling geen enkele rol speelt. Ben je als organisatie wel op die gebieden actief dan kunnen dergelijke technieken absoluut een bijdrage leveren om veiliger privacygevoelige gegevens te kunnen gebruiken voor analyse en onderzoek. Ik ben het echter niet eens met de manier waarop deze technieken aangekondigd worden als DE ultieme data privacy oplossing.
Ja, de technieken zullen – als je ze kan gebruiken – absoluut meerwaarde bieden, maar het ontslaat ons geen moment van alle andere verplichtingen die we hebben op het gebied van data privacy bescherming zoals hierboven die hierboven genoemd worden.
Ik neem per definitie alle oplossingen die claimen de ultieme privacybescherming te kunnen bieden met een korreltje zout. En ik denk persoonlijk dat TNO in hun publicatie dit ook prima mee had kunnen nemen door voor een iets minder krachtige bewoording te kiezen in plaats van dat FL en MPC de privacy van individuen kan garanderen.