Einde inhoudsopgave
Platformisering, algoritmisering en sociale bescherming (MSR nr. 78) 2021/8.3.4
8.3.4 ML-algoritmes en discriminatie
Willemijn Roozendaal & Marko Jovović, datum 01-05-2021
- Datum
01-05-2021
- Auteur
Willemijn Roozendaal & Marko Jovović1
- JCDI
JCDI:ADS288482:1
- Vakgebied(en)
Arbeidsrecht / Algemeen
Sociale zekerheid algemeen (V)
Voetnoten
Voetnoten
Marko Jovović is advocaat bij Stibbe en staat in die hoedanigheid verschillende online platforms bij.
Woorden die in cv’s worden gebruikt kunnen onverhoopt (bijvoorbeeld) het geslacht van de kandidaat verraden. Dit probleem deed zich voor bij Amazon: “In effect, Amazon’s system taught itself that male candidates were preferable. It penalized resumes that included the word ‘women’s,” as in “women’s chess club captain.” Zie J. Dastin, ‘Amazon scraps secret AI recruiting tool that showed bias against women’, Reuters, 10 oktober 2018, online via: https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G (laatst geraadpleegd op 1 maart 2020).
Zie Hannak 2017 voor empirisch onderzoek waarin voor twee werkplatforms (Fiverr en Taskrabbit) signficante verschillen werden gevonden in ratings, zowel gedreven door etniciteit als door geslacht. Zie echter ook Cook, Diamond, Hall, List & Oyer 2018, waarin geen verschil in ratings werd gevonden bij Uber-chauffeurs.
Vgl. Sandvig, Hamilton, Karahalios & Langbort 2014.
Vgl. Barocas, Hardt & Narayanan 2019, p. 25-26.
Wij hebben het hier over nauwkeurigheid, maar minstens zo relevant zijn andere verwante begrippen zoals ‘recall’ en ‘precision’. Zie voor meer hierover: Barocas, Hardt, Narayanan 2019, p. 15 en 38 e.v.
60% klinkt op zich nog goed, maar het is in feite maar iets beter dan een muntje opgooien.
Barocas, Hardt, Narayanan 2019, p. 22.
Zie hierover uitgebreid Barocas, Hardt & Narayanan 2019, p. 45-55, 73-75 en 107-120. Een lijst met formele non-discriminatiecriteria is te vinden op p. 75.
Barocas, Hardt & Narayanan 2019, p. 47.
De vraag is nu hoe de besproken regels zich verhouden tot het gebruik van ML-algoritmes. Wij gaan uit van de werkgever die tracht een niet-discriminatoir datagedreven selectiesysteem te ontwerpen. In hoeverre staat het gelijkebehandelingsrecht dit toe?
Direct onderscheid
Zoals besproken zijn de mogelijkheden om direct onderscheid te rechtvaardigen zeer beperkt. Een beslisalgoritme waarin de verboden gronden voorkomen, maakt dus in beginsel direct onderscheid. Om zeker te weten dat het beslisalgoritme geen gebruik maakt van deze variabelen, moeten ze uit de dataset worden verwijderd. Voor de dataset uit onze casus (de personeelsselectie), betekent dat dat deze variabelen uit het cv van de functionarissen en de kandidaten moeten worden gehaald. Dit kan het gebruik van databronnen als e-mails of socialmediaprofielen compliceren.2 Ook bij het gebruik van video-opnames zou hiermee rekening moeten worden gehouden. Daarin opgenomen verboden kenmerken zoals huidskleur of geslacht, mogen namelijk niet meewegen in het afwegingskader.
Indirect onderscheid
Hiermee is het ML-algoritme nog niet discriminatievrij. Ook als de ‘verboden variabelen’ zijn weggelaten, kan het systeem indirect verboden onderscheid maken.
Zoals besproken is sprake van indirect onderscheid als het beslisalgoritme een aanzienlijk percentage leden van beschermde groepen nadelig treft. Het beslisalgoritme kan tot deze uitkomst leiden als de trainingsdata een vooringenomenheid bevatten. Een voorbeeld kan dit verduidelijken. Stel dat een werkplatform voor hondenuitlaatdiensten ratings aanmerkt als indicator voor succes (outputvariabele) en op basis daarvan met een ML-algoritme de volgorde bepaalt waarin werkers aan de hondeneigenaren worden getoond. Stel voorts dat migranten in de betreffende branche in overigens gelijke omstandigheden door discriminatie van klanten een lagere rating krijgen.3 De uitkomst van het algoritme is dan dat hun resultaten vaker lager op de pagina worden getoond. Dit kan bovendien een zelfversterkend effect krijgen.4 Hun kansen om een klus te krijgen, dalen, ze doen daardoor minder ervaring op, presteren minder goed, krijgen daardoor weer lagere ratings, etc.5
Wij signaleren dat het enkele weglaten van de variabele ‘etniciteit’ geen oplossing is voor discriminatie in algoritmes, maar juist een probleem, omdat deze omstandigheid dan niet meer boven water kan komen. In dit voorbeeld kunnen de discriminatoire ratings namelijk alleen uit de dataset blijken als de ratings voor gelijk presterende migranten en niet-migranten kunnen worden vergeleken. Daarvoor moet bekend zijn wie de migranten in de dataset zijn. Wij komen terug op dit probleem in paragraaf 8.4 en 8.5.
Een tweede probleem is, dat het ML-algoritme minder nauwkeurig6 kan zijn voor leden van een bepaalde minderheidsgroep. Zo kan het voorkomen dat een model dat voor de gehele populatie 95% nauwkeurig is, voor leden van een bepaalde in de data ondervertegenwoordigde (minderheids)groep maar 60%7 nauwkeurig zal zijn. ML-algoritmes worden beter van meer data, terwijl over ondervertegenwoordigde groepen per definitie minder data voorhanden zijn.8 Als de beslisfunctie ‘goede kandidaten’ moet onderscheiden van ‘slechte kandidaten’, is het van belang dat het dat nauwkeurig doet. Nadeel kan er dus ook uit bestaan dat kandidaten uit minderheidsgroepen willekeurig(er) of minder zorgvuldig worden behandeld; zij hebben dan een minder eerlijke kans.
Datawetenschappers onderkennen deze problemen. Er is gewerkt aan allerlei interventies in verschillende fasen van het ontwerp: bij het selecteren en bewerken van de data, bij het trainingsproces of bij het maken van de beslisfunctie. Er zijn sterk uiteenlopende formele (wiskundige) benaderingen ontwikkeld, die uitdrukking geven aan verschillende opvattingen van ‘fairness’. Denk bijvoorbeeld aan enerzijds het uitschakelen van de invloed van een bijzonder kenmerk, of anderzijds juist het nastreven van een evenredige spreiding van uitkomsten over de verschillende doelgroepen.9 Gevreesd wordt wel dat laatstbedoelde interventies ten koste gaan van de effectiviteit, nauwkeurigheid of generaliseerbaarheid van het ML-algoritme.10