Einde inhoudsopgave
Platformisering, algoritmisering en sociale bescherming (MSR nr. 78) 2021/8.3.5
8.3.5 Objectieve rechtvaardiging en uitlegbaarheid
Willemijn Roozendaal & Marko Jovović, datum 01-05-2021
- Datum
01-05-2021
- Auteur
Willemijn Roozendaal & Marko Jovović1
- JCDI
JCDI:ADS288404:1
- Vakgebied(en)
Arbeidsrecht / Algemeen
Sociale zekerheid algemeen (V)
Voetnoten
Voetnoten
Marko Jovović is advocaat bij Stibbe en staat in die hoedanigheid verschillende online platforms bij.
Edwards & Veale 2017.
Zie voor een wat technischer overzicht van de recente stand van zaken inzake BBX: Guidotti, Monreale, Ruggieri, Turini, Giannotti & Pedreschi 2018.
Vgl. Rudin 2019, p. 206-215.
Ontleend aan Edwards & Veale 2017, p. 54 e.v.
Zie in vergelijkbare zin: Kamerstukken II 2018/19, 26643, nr. 570 (brief van de Minister voor Rechtsbescherming, 9 oktober 2018).
In paragraaf 8.3.2 is aan de orde gekomen dat maar weinig gronden voor indirect onderscheid niet gerechtvaardigd zijn. Ontwerpers en gebruikers van ML-algoritmes hebben dus in beginsel veel vrijheid bij het verzamelen van variabelen voor het ontwerpen van ML-algoritmes voor selectie of bijvoorbeeld de toewijzing van klussen aan platformwerkers. Maar op het oog problematisch is toch dat onder omstandigheden in beginsel het afwegingskader als geheel moet worden gerechtvaardigd. Dit stelt de gebruiker van ML-algoritmes voor een obstakel, omdat het nu juist een grote uitdaging blijkt om op een betekenisvolle manier uit te leggen in hoeverre de gehanteerde variabelen bijdragen aan de uitkomst van een beslisalgoritme.2
Er wordt veel onderzoek gedaan naar uitlegbaarheid in machine learning. Daarbij zijn twee hoofdrichtingen te onderscheiden: aan de ene kant explanation by design (‘XbD’) en aan de andere kant black box explanation (‘BBX’). Bij XbD-systemen is het algoritme zodanig transparant opgezet, dat een zinvolle uitleg tegelijkertijd met de databewerking gegenereerd kan worden. BBX-systemen daarentegen, zijn gericht op het genereren van de uitleg van een black box-beslisalgoritme nadat deze tot stand is gekomen. De uitdaging daarbij is te zorgen dat de uitleg daadwerkelijk het besluitvormingsproces adequaat weergeeft.3
Daarnaast kan onderscheid worden gemaakt tussen een modelcentrische uitleg en een subjectcentrische uitleg. Een modelcentrische uitleg kan bijvoorbeeld bestaan uit een toelichting op de wijze waarop het model is ingericht, de data die ervoor gebruikt zijn, de voorspellende waarde ervan of een versimpelde, gemiddelde uitleg van hoe van een input naar een output wordt gegaan. Opnieuw geldt dat het per definitie alleen mogelijk is een versimpelde uitleg te geven. Anders zou het immers mogelijk zijn de versimpelde uitleg te gebruiken in plaats van het complexe model om dezelfde resultaten te behalen.4 Het is de vraag of een modelcentrische uitleg steeds een voldoende betekenisvolle uitleg kan geven in individuele gevallen.
Een subjectcentrische uitleg kan informatie geven over de uitkomst in een voorliggend geval, zoals welke veranderingen in de input tot een andere output zouden hebben geleid, welke gevallen uit de trainingsdata het meest op het voorliggende geval lijken, welke gevallen een vergelijkbare kwalificatie van het systeem krijgen, of met welke mate van zekerheid het voorliggende geval gekwalificeerd is (anders gezegd; is het een moeilijk of een makkelijk geval).5
Een beslisalgoritme kan aldus op verschillende manieren worden toegelicht. Toch zal de toelichting veelal niet op alle punten opheldering kunnen geven over de precieze werking ervan. Voor zover er wel opheldering kan worden gegeven, is denkbaar dat daaruit blijkt dat het beslisalgoritme variabelen in het afwegingskader gebruikt, die op het oog weinig verband houden met de functie-eisen, zoals laatstverdiende loon, financiële situatie of postcode van de kandidaat. Wij signaleren hier de volgende spanning. De meerwaarde van complexe ML-algoritmes ligt onder meer in het herkennen en benutten van – soms onverwachte – door mensen moeilijk te hanteren non-lineaire verbanden, waarbij het voor de effectiviteit niet steeds nodig is onderscheid te maken tussen correlatie en causaliteit.6 Eventuele ongerijmdheden kunnen door de gebruiker acceptabel worden gevonden zolang het algoritme effectief is, dat wil zeggen (in de trainingsfase) in staat was om succesvolle kandidaten te ‘voorspellen’. Dit botst met de klassieke aanpak van de rechtvaardiging van indirecte discriminatie. Daarin geldt immers dat op grond van onder andere de Danfoss-leer het kan bijdragen aan een vermoeden van discriminatie, als de werkgever niet in staat is inzicht te geven in het beslisalgoritme en de vraag waarom de daarin voorkomende variabelen relevant zijn voor de functie en wat hun onderlinge samenhang is.
Wij denken dat het de moeite waard is om te onderzoeken in hoeverre deze klassieke benadering in het gelijkebehandelingsrecht kan worden losgelaten, althans in hoeverre de rechtvaardigingstoets kan worden aangepast bij het gebruik van ML-algoritmes. In paragraaf 8.5 gaan wij nader in op de meerwaarde van datagedreven personeelsselectie. In de volgende alinea’s werken wij een voorbeeld uit van een aangepaste rechtvaardigingstoets voor datagedreven personeelsselectie.
In ons voorbeeld gaat het om een beslisalgoritme waarin het belangrijkste selectiecriterium kan worden samengevat als ‘lijken op succesvolle functionarissen’. Stel dat bij een selectie met behulp van dit beslisalgoritme (veel) meer mannen zijn geselecteerd dan vrouwen. In de trainingsdataset zaten e-mailbestanden van functionarissen, die zijn meegenomen in het trainen van het beslisalgoritme. Er zijn correlaties gevonden tussen bepaalde woordkeuzen van functionarissen in hun e-mails en hun score op de succesindicatoren. Stel, het blijkt niet mogelijk om bevredigend toe te lichten welke woordkeuze het precies betreft en waarom die woordkeuze relevant is voor de functie. Volgens de klassieke rechtvaardigingstoets zou dit leiden tot een niet weerlegbaar vermoeden van discriminatie.
Een mogelijke modelcentrische rechtvaardiging in dit scenario zou dan kunnen zijn dat het model is getraind op een dataset met e-mails van evenveel mannen als vrouwen, en dat het in 92% van de gevallen een kandidaat aanwees die later ‘goed’ presteerde volgens een genderneutraal criterium voor succes. Zou een dergelijke toelichting voldoende kunnen zijn voor de objectieve rechtvaardiging (in de zin van het gelijkebehandelingsrecht) van de ongelijke uitkomst? Denkbaar is dat een afgewezen kandidaat daarnaast aanspraak zou kunnen maken op een meer subjectcentrische toelichting, bijvoorbeeld door te vragen naar de verschillen tussen de kandidaat en de meest op hem of haar gelijkende gevallen die wel geselecteerd zijn.
Om strijd met het gelijkebehandelingsrecht te voorkomen, zou de ontwerper van het beslisalgoritme overigens ook kunnen streven naar een evenredige spreiding van de geselecteerde kandidaten over de verschillende doelgroepen. Dit heeft in het gelijkebehandelingsrecht immers tot gevolg, dat niet snel meer sprake zal zijn van een vermoeden van discriminatie, zodat het beslisalgoritme in beginsel verder niet gerechtvaardigd hoeft te worden. Wij signaleren nog een keer dat het voor deze optie van belang is om de beschermde kenmerken niet weg te laten maar juist op te nemen in het model, want anders kan onevenredigheid niet zichtbaar worden en dus ook niet gecorrigeerd. Beide methoden (het model corrigeren en de uitkomst corrigeren) kunnen uiteraard ook gecombineerd worden.