Platformisering, algoritmisering en sociale bescherming (MSR nr. 78) 2021/8.4.4:8.4.4 ML-algoritmes en de AVG

Platformisering, algoritmisering en sociale bescherming (MSR nr. 78) 2021/8.4.4

8.4.4 ML-algoritmes en de AVG

Documentgegevens:

Willemijn Roozendaal & Marko Jovović, datum 01-05-2021

Datum: 01-05-2021
Auteur: Willemijn Roozendaal & Marko Jovović1
JCDI: JCDI:ADS288503:1
Vakgebied(en): Arbeidsrecht / Algemeen
Sociale zekerheid algemeen (V)

Een van de centrale beginselen van gegevensverwerking zoals opgesomd in art. 5 AVG is het beginsel van minimale gegevensverwerking, ook wel samengevat als ‘select before you collect’. Dit lijkt precies omgekeerd aan de manier waarop sommige ML-algoritmes werken. Bij zogeheten data mining worden immers juist eerst grote hoeveelheden gegevens verzameld om vervolgens met behulp van algoritmes verbanden te kunnen leggen tussen gegevens. Maar ook de praktijk van de supervised ML-algoritmes zal daarmee in strijd kunnen komen. Het doel van de gegevensverwerking in onze casus, personeelsselectie, zal zonder meer legitiem zijn. Een potentieel obstakel is evenwel de vraag of kan worden vastgesteld dat een verwerking van een persoonsgegeven noodzakelijk is voor het bereiken van dat doel. Voor het samenstellen van de trainingsdataset zal niet voor elk verzameld persoonsgegeven vooraf kunnen worden aangetoond dat het relevant is. Pas als het algoritme daadwerkelijk wordt uitgevoerd, berekent de computer immers welke variabelen ertoe doen.2 Zoals besproken is ook achteraf niet altijd helemaal transparant te maken in hoeverre variabelen in het beslisalgoritme relevant zijn en, voor zover dat wel zo is, verschaft het model niet altijd informatie over de vraag waarom de variabele relevant zou zijn voor het doel. Het aantonen van de noodzaak van het verwerken van alle variabelen is zoals besproken daarom op het oog niet haalbaar.

Als men datagedreven personeelsselectie toch mogelijk wil maken, is derhalve een welwillende interpretatie nodig van de eis dat de voor selectie gebruikte persoonsgegevens relevant moeten zijn voor de functie, en dat over het gebruik van deze gegevens uitleg moet worden gegeven aan de kandidaat. Uit de uitlatingen van de EDPB valt af te leiden dat het gebruik van beslisalgoritmes met behulp van persoonsgegevens niet bij voorbaat taboe is. Volgens het Hof van Justitie valt in de AVG geen inhoudelijke rechtvaardigingsplicht te lezen. Wij concluderen daarom voorzichtig dat er gezocht kan worden naar een op het gebruik van algoritmes aangepaste interpretatie van de AVG, mits er op zorgvuldige wijze gebruik van wordt gemaakt.

Een van de voorwaarden voor zorgvuldige verwerking is het zorgdragen dat het model niet leidt tot discriminatie. Zoals besproken is het mogelijk om discriminatie te bestrijden door een model te corrigeren voor onevenredige spreiding over beschermde doelgroepen. Daarvoor is nodig dat informatie over lidmaatschap van die groepen zichtbaar is. Naar Nederlands recht mogen bijzondere persoonsgegevens echter niet voor dit doel verwerkt worden. Betoogd kan worden dat een uitzondering kan worden gemaakt voor correctie voor de grond ras of etnische afkomst onder de voorwaarden van art. 25 UAVG, omdat dit zou kunnen gelden als voorkeursbehandeling. De gronden geslacht, nationaliteit en leeftijd zijn geen bijzondere persoonsgegevens, zodat daarvoor zonder meer gecorrigeerd kan worden. Voor de grond handicap is echter geen verwerking van gegevens toegestaan voor het doel van selectie.

Naast correctie van de uitkomst van het model kan, zoals ook al besproken in de paragraaf over gelijke behandeling, gekeken worden naar de vormgeving van het model. Een werkgever die een AVG-respecterende datagedreven personeelsselectieprocedure wil ontwerpen, zal bij het samenstellen van de trainingsdataset de privacy van de functionarissen van wie de profielen worden gebruikt, zoveel mogelijk waarborgen door bijvoorbeeld gebruik te maken van pseudonimisering. De dataset zal uiteraard worden geschoond van bijzondere persoonsgegevens, behoudens in geval van voorkeursbeleid. Deze eis beperkt, zoals besproken, het gebruiken van video’s en persoonlijkheidstesten. Tekstbestanden zullen worden gefilterd op woorden die een bijzonder persoonsgegeven ‘onthullen’. Verder kan gedacht worden aan de volgende zorgvuldigheidseisen. Bij het samenstellen van de trainingsdataset wordt voor elke categorie van persoonsgegevens zoveel mogelijk aangegeven waarom deze relevant zou kunnen zijn en gebruik van gegevens uit het privéleven die op het oog niet relevant zijn voor de functie, zoals relationele gegevens of financiële historie, moet terughoudend zijn en bijvoorbeeld worden beperkt tot gevallen waarin het beslisalgoritme er aantoonbaar beter door presteert.

Als de trainingsdataset op die manier zorgvuldig is samengesteld en de effectiviteit ervan getoetst, dan moet nog worden gecontroleerd of het beslisalgoritme geen discriminatoire, foutieve of ongerechtvaardigde resultaten oplevert, bijvoorbeeld door de spreiding van de resultaten over verschillende doelgroepen te beoordelen en zo nodig te corrigeren. Ten slotte wordt aan de kandidaat uiteraard alleen toegestane informatie uitgevraagd, en wordt de onderliggende logica van het beslisalgoritme aan de kandidaat uitgelegd. Voor wat betreft de uitlegbaarheid van het beslisalgoritme spelen vergelijkbare vraagstukken als wij in paragraaf 8.4.3 bespraken.

Toon alle voetnoten

Voetnoten

Voetnoten

Marko Jovović is advocaat bij Stibbe en staat in die hoedanigheid verschillende online platforms bij.

Kleinberg, Ludwig, Mullainathan & Sunstein 2018, onder verwijzing naar technische literatuur.