Het gevaar van convergerende data door zelflerende algoritmes

BlogTechnologie

Recentelijk werd de Nederlandse overheid wederom door de media geconfronteerd met de onvoorspelbare gevolgen van het toestaan en toepassen van zelflerende algoritmes voor opsporingsdoeleinden. Het betreft namelijk een heel reëel gevaar dat zelflerende algoritmes en convergerende data op den duur verzanden in discriminatie. Dit ontstaat doordat een zelflerend algoritme onder invloed van de verwerking van zijn eigen feedback tendeert naar een steeds smallere en in maatschappelijke termen steeds meer bevooroordeelde output. Een dergelijke convergerende dataverwerking kan potentieel tot discriminatie leiden. Doordat een zelflerend algoritme zijn strategie vervolgens versleutelt in wiskunde en daarna omzet in programmeertaal is het uiteindelijke resultaat een lastig te doorgronden ‘black box’. Zonder uitdrukkelijke kennis van zaken valt nauwelijks meer te doorgronden waarop het zelflerende algoritme zich precies richt of richtte. Discriminatie kan daardoor langdurig onopgemerkt blijven, terwijl de slachtoffers ervan weliswaar aanvoelen dat er iets totaal niet klopt.

Sociale media en hun filterbubbels

Zelflerende algoritmes die het aanbod op jouw tijdlijn binnen sociale media bepalen, leiden er bijvoorbeeld toe dat dit aanbod tot op zekere hoogte steeds smaller, beperkter of extremer wordt. Doordat het aanbod grotendeels iteratief (herhalend) wordt afgestemd op jouw eerdere klikgedrag leidt een op enig moment beperkter inhoudelijk aanbod automatisch tot een daaropvolgend nog smaller en nog beperkter inhoudelijk aanbod. Omdat het meest kenmerkende proces van zelflerende algoritmes uit iteratieve (herhalende) berekeningen bestaat, leidt dit potentieel tot een vicieuze cirkel. Binnen sociale media kan dit er toe leiden dat je op enig moment alleen nog maar wordt geconfronteerd met content die jouw vooronderstellingen grotendeels bevestigen. Simpelweg, omdat het algoritme na enige tijd heeft geleerd dat jij minder vaak op content klikt die jouw vooronderstellingen niet delen, betwisten of aanvechten. Aangezien het verdienmodel van sociale media er uit bestaat jou zo lang mogelijk actief te houden op het platform – opdat jij zoveel mogelijk advertenties voorbij ziet komen (*sick*) – mag het geen verbazing wekken dat het zelflerende algoritme doelbewust zo is ingericht dat jij een informatiefuik c.q. een filterbubbel in wordt getrokken waarbinnen jij jezelf het meest comfortabel voelt.

Zelflerende algoritmes voor opsporingsdoeleinden

Zelflerende algoritmes voor opsporingsdoeleinden zijn er eveneens bij uitstek op ontworpen om op grond van hun eigen feedback te versmallen en tot convergerende data te leiden. Ze versmallen of convergeren de totale dataverzameling daarbij tot een deelverzameling van potentiële fraudeurs. Het meest kenmerkende proces van een zelflerend algoritme bestaat uit iteratieve berekeningen op grond van zijn eigen feedback. Deze feedback bestaat in dit geval uit opgespoorde fraudeurs. Een dergelijk proces leidt per definitie tot convergerende data. Of een dergelijke convergerende dataverwerking uiteindelijk ook leidt tot discriminatie valt op voorhand lastig te voorspellen. Dit hangt zowel af van hoe het algoritme is ontworpen als hoe de specifieke dataverzameling is samengesteld. De potentiële gevolgen van convergerende data blijven derhalve per definitie onvoorspelbaar.

zelflerend-algoritme

Algoritmes discrimineren sowieso op basis van het verleden

In beginsel kan ieder algoritme discrimineren op grond van de oorspronkelijke input van zijn ontwikkelaars. Indien de aangeleverde data voor het algoritme het resultaat is van bepaalde vooroordelen van opsporingsambtenaren of ontwikkelaars, dan zal het algoritme deze vanzelfsprekend overnemen. Als opsporingsambtenaren zich in het verleden bijvoorbeeld met name richtten op ‘woningzoekende werkelozen’, dan valt te verwachten dat fraudeurs eveneens met name werden gevonden onder ‘woningzoekende werkelozen’. Dit vanwege het principe ‘wie zoekt, zal vinden’. Een algoritme gebaseerd op een dergelijke output uit het verleden zal dan in beginsel ook bevooroordeeld zijn en zich in eerste instantie voornamelijk richten op ‘woningzoekende werkelozen’. Dit gedrag vormt een direct uitvloeisel van menselijk gedrag en is als zodanig zorgwekkend, maar niet persé zorgwekkender dan discriminatie door ‘echte’ mensen.

Zelflerende algoritmes kunnen volkomen spontaan gaan discrimineren

Een zelflerend algoritme kan daarentegen ook volkomen spontaan gaan discrimineren. Dit kan het gevolg zijn van zijn eigen ontwerp in combinatie met potentieel aanwezige verbanden tussen activiteiten- en gedragspatronen enerzijds en persoonskenmerken en leefomstandigheden anderzijds. Dergelijke verbanden kunnen vervolgens iteratief worden versterkt. Hoewel het algoritme – vanwege het gevaar van expliciete discriminatie – in principe niet zou mogen worden toegestaan zich rechtstreeks op persoonskenmerken en leefomstandigheden te richten, is het niet ondenkbaar dat bepaalde activiteiten- en gedragspatronen enerzijds indirect verband houden met bepaalde persoonskenmerken en leefomstandigheden anderzijds. Het zelflerende algoritme zal sommige mogelijk als relevant herkennen en versterken. Dit nu houdt het intrinsieke gevaar van zelflerende algoritmes in. Ze leiden onbedoeld tot potentiële discriminatie op grond van persoonskenmerken en/of leefomstandigheden. Zelfs als dergelijke variabelen oorspronkelijk geen onderdeel uitmaakten van het zelflerende algoritme.

Saillant detail is overigens dat de Belastingdienst wel degelijk concrete persoonskenmerken toestond binnen hun zelflerende algoritmes, hoewel dit door de meeste ontwikkelaars bij voorbaat wordt gezien als een onbegaanbaar pad vanwege het gevaar van expliciete discriminatie.

Indien een dergelijk algoritme bijvoorbeeld een significant verband ontdekt tussen het jaarlijks langdurig voor vakantie in het buitenland verblijven en het optreden van inkomensfraude, dan kan dit in de praktijk betekenen dat met name allochtonen met familie in het buitenland op den duur op extra controles kunnen rekenen. Vanwege het principe ‘wie zoekt zal vinden’ alsmede het iteratieve karakter zal het algoritme tenderen naar een steeds smallere c.q. bevooroordeelde output. Hoewel langdurig voor vakantie in het buitenland verblijven in bepaalde gevallen misschien een direct gevolg kan zijn van een financieel gewin via inkomensfraude, betekent dit niet automatisch dat iedere allochtoon die langdurig voor vakantie bij familie in het buitenland verblijft een potentiële fraudeur is. Een zelflerend algoritme heeft echter totaal geen ethisch bewustzijn en is bovendien een ‘black box’. Daarom kan een dergelijke tendens – als deze eenmaal binnen een zelflerend algoritme is geslopen – langdurig zijn destructieve vooroordelen blijven uitoefenen. Totdat overduidelijk is dat het systeem expliciet discrimineert.

Er bestaan relatief vaak potentiële afhankelijkheidsrelaties tussen activiteiten- en gedragspatronen enerzijds en persoonskenmerken en leefomstandigheden anderzijds die door een zelflerend algoritme kunnen worden opgepakt. Als ze bestaan en voor het algoritme relevant zijn, dan bestaat er een reële kans dat het zelflerende algoritme ze op den duur iteratief gaat versterken met expliciete discriminatie tot gevolg.

De ‘Toeslagenaffaire’ bracht het risico van discriminatie door zelflerende algoritmes breed onder de aandacht

De ‘Toeslagenaffaire’ vormt wel het meest bekende voorbeeld van een zelflerend algoritme dat ontspoorde door expliciet te discrimineren. Echter overal waar zelflerende algoritmes voor opsporingsdoeleinden worden toegepast, ligt eenzelfde gevaar op de loer. Het gevaar is dusdanig groot en de gevolgen zijn dusdanig ingrijpend dat te allen tijde vermeden dient te worden om zelflerende algoritmes nog langer in te zetten voor opsporingsdoeleinden.

De Tweede Kamer zou er daarom goed aan doen het nieuwe kabinet op te roepen om zelflerende algoritmes voor opsporingsdoeleinden strikt aan banden te leggen. Dit om te voorkomen dat er in de toekomst een herhaling van de toeslagenaffaire plaats kan vinden. Het valt tenslotte te hopen dat ons parlement de reële gevaren van zelflerende algoritmes voldoende onderkent, om toekomstig leed en onrecht bij goedbedoelende burgers te voorkomen.

Art Huiskes

Art ziet zichzelf als onderzoeksjournalist en doorgrondt het liefst thema's die anderen volgens hem laten liggen. Verklarende en verdiepende artikelen vormen zijn stijl. Hij schuwt...

Het gevaar van convergerende data door zelflerende algoritmes

Sociale media en hun filterbubbels

Zelflerende algoritmes voor opsporingsdoeleinden

Algoritmes discrimineren sowieso op basis van het verleden

Zelflerende algoritmes kunnen volkomen spontaan gaan discrimineren

De ‘Toeslagenaffaire’ bracht het risico van discriminatie door zelflerende algoritmes breed onder de aandacht

Waarom opsporingsalgoritmen uit zichzelf actief kunnen gaan discrimineren

Sociale media en hun filterbubbels zijn onmiskenbaar betrokken bij de huidige geweldsexplosie

Waarom je niet wilt dat jouw biometrische gegevens op straat komen te liggen

Een teveel aan schuldenposities is het recept voor een beurskrach

Share this post