Onderzoekers van Universiteit Leuven en het Imperial College Londen hebben ontdekt dat het de-anonimiseren van geanonimiseerde datasets makkelijker is dan tot voor kort werd aangenomen. Ze hebben dit aangetoond door middel van een model dat schat hoe makkelijk het is om een dataset te de-anonimiseren.
Geanonimiseerde gegevens worden overal voor gebruikt: medisch onderzoek, gepersonaliseerde aanbevelingen en moderne AI-technieken. De veronderstelling is dat alle persoonlijke identificeerbare informatie verwijderd is terwijl een kern van de nuttige informatie voor onderzoekers behouden blijft.
Zo heeft een ziekenhuis de mogelijkheid om de namen, adressen en geboortedata van patiënten te verwijderen uit een set van gezondheidsdocumenten. Onderzoekers krijgen dan een set gegevens die ze kunnen gebruiken om bijvoorbeeld een koppeling te leggen tussen verschillende aandoeningen terwijl het dan niet terug te leiden is naar een specifiek persoon.
Het is al eens vaker voorgekomen dat geanonimiseerde datasets zijn gedeanonimiseerd. In 2008 werd een Netflix-dataset gekoppeld aan filmbeoordelingen op IMDB om zo de dataset aan specifieke gebruikers te koppelen. In 2014 werden de thuisadressen van taxichauffeurs in New York ontdekt uit een gegevensset van individuele gemaakte reizen in de stad.
En in Australië blunderde de gezondheidsafdeling van de regering door anonieme medische factuurgegevens aan te bieden waarbij het mogelijk was om aan de hand van standaard persoonsgegevens zoals; geboortejaar van oudere moeders met jonge kinderen of juist moeders met veel kinderen, personen te identificeren.
De onderzoekers uit Leuven en Londen hebben het model op verschillende willekeurige datasets getest. Zo was het mogelijk om met een dataset waarin 15 demografische kenmerken zaten om 99,98% van de inwoners van Massachusetts te kunnen identificeren. Heb je een kleinere stad, dan is het zelfs nog makkelijker om aan de hand van locatiegegevens personen te identificeren.
Het is daarom bijna bizar te noemen dat bedrijven die in deze datasets handelen nóg meer kenmerken tot beschikking stellen in die sets. Zo heeft het bedrijf Experian aan softwarebedrijf Alteryx een dataset verkocht met 248 (!!) kenmerken per huishouden in van 120 miljoen Amerikanen.
Kijkend naar huidige privacywetgeving kan dit niet in stand worden gehouden. Luc Rocher van Universiteit Leuven hierover: “Onze resultaten verwerpen ten eerste de beweringen dat heridentificatie geen praktisch risico vormt en ten tweede dat het vrijgeven van gedeeltelijke datasets een plausibele vorm van veiligheid biedt.”
Differentiële privacy is een andere benadering voor het verwerken van gegevenssets met het oog op de behoefte aan gegevensbescherming. Grote bedrijven als Apple en Uber hanteren dit. Deze vorm van anonimiseren zorgt er voor dat elk individueel gegevenspunt gemiddeld is over de hele dataset. Hierdoor wordt voorkomen dat de set te de-anonimiseren is om individueel niveau.
[Fotocredits © ptnphotof – Adobe Stock]