Einde inhoudsopgave
Platformisering, algoritmisering en sociale bescherming (MSR nr. 78) 2021/8.2.2
8.2.2 De complexiteit van ML-algoritmes
Willemijn Roozendaal & Marko Jovović, datum 01-05-2021
- Datum
01-05-2021
- Auteur
Willemijn Roozendaal & Marko Jovović1
- JCDI
JCDI:ADS288509:1
- Vakgebied(en)
Arbeidsrecht / Algemeen
Sociale zekerheid algemeen (V)
Voetnoten
Voetnoten
Marko Jovović is advocaat bij Stibbe en staat in die hoedanigheid verschillende online platforms bij.
Zie bijvoorbeeld Rudin 2019, p. 2-3.
Vgl. Molnar 2020.
Zie voor recent werk over ML-algoritmes die wel rekening houden met causale verbanden o.a. Helwegen, Louizos & Forré 2020.
Edwards & Veale 2017, p. 54 e.v., met name p. 57.
Zo baseerde een algoritme dat honden van wolven moest onderscheiden zijn beslissingen dat een wolf een wolf was uitsluitend op de aanwezigheid van sneeuw in de foto, zie: Guidotti, Monreale, Ruggieri, Turini, Giannotti & Pedreschi 2018.
Rudin 2019, p. 206-215; Kamerstukken II 2018/19, 26643, nr. 570 (brief van de Minister van Rechtsbescherming, 9 oktober 2018); Vetzo & Gerards 2019, p. 12; Kleinberg, Ludwig, Mullainathan & Sunstein 2018, p. 114, onder verwijzing naar technische literatuur.
Zie voor de Amerikaanse context bijvoorbeeld Kumar, O’Brien, Albert & Vilojen 2018, p. 3.
Dat neemt niet weg dat de toepassing van algemene rechtsregels en ‘soft law’ de rechtspositie van de sollicitant inkleuren, zie Kötter 2010.
Het werken met grote hoeveelheden data voor bijvoorbeeld statistieken is uiteraard geen recent fenomeen. ML-algoritmes gebruiken statistische en wiskundige methoden echter om tegelijkertijd grote aantallen verbanden tussen tientallen of zelfs honderden variabelen te kunnen analyseren, en zo zeer complexe non-lineaire verbanden te leggen en zo nauwkeurig mogelijke voorspellingen te doen. Veelal wordt in verschillende stappen samenhang tussen data gecomprimeerd (samengevat). Daardoor wordt de berekening steeds abstracter, complexer en voor mensen minder goed te begrijpen.
Er zijn meer en minder transparante (voor mensen goed te begrijpen) ML-algoritmes. Hoewel hierover discussie bestaat, wordt vaak gezegd: hoe transparanter het algoritme, hoe minder nauwkeurig (in de zin van: precies) de voorspellingen.2
Omdat het uiteindelijke beslisalgoritme vooral bij de best presterende ML-algoritmes vaak zeer abstract is, kan veelal niet meer in gewone bewoordingen worden uitgelegd op welke manier de inputvariabelen precies samenhangen met de outputvariabelen. Zelfs als alle elementen van het algoritme en alle verbanden wel volledig transparant zouden zijn, zou het systeem voor mensen niet te bevatten zijn door de grote complexiteit daarvan, bijvoorbeeld omdat ML-algoritmes een groot deel van hun kracht ontlenen aan het leggen van non-lineaire verbanden.3 Veel algoritmes4 gebruiken bovendien slechts correlaties en houden zich niet bezig met causale verbanden. Ook dat maakt een bevredigende uitleg voor een uitkomst van het model soms lastig.
Ter illustratie van het gebrek aan transparantie geven wij een ruw voorbeeld van een deel van een verklaring voor een beslissing in een concreet geval:
“U wordt niet opgeroepen voor de platformklus omdat u momenteel € 24,50 per uur verdient. Bij € 22,00 of € 25,00 per uur had het in samenhang met uw andere eigenschappen anders gelegen.”
Deze uitleg roept dan vanzelf de diepere vraag op waarom € 22,00 of € 25,00 wel goed zou zijn geweest. Dit kan veelal niet op basis van het model worden beantwoord.5 Toch kan het algoritme succesvol zijn in het bereiken van zijn doel, in dit voorbeeld het efficiënt toedelen van klussen. Anderzijds moet onderkend worden dat de techniek van het leggen van onverwachte verbanden in het verleden ongerijmde resultaten heeft opgeleverd. Er zijn allerlei voorbeelden bekend van door de computer gelegde absurde verbanden die door toevalligheden veroorzaakt waren.6
Het gebrek aan transparantie wordt ook wel aangeduid met de term ‘black box’.7 Die term kan ook slaan op systemen waarvan de werking expres geheim wordt gehouden, bijvoorbeeld om intellectuele eigendom te beschermen of misbruik tegen te gaan.8 In alle gevallen is verminderde transparantie juridisch relevant, omdat motiveringsverplichtingen daardoor niet of minder goed kunnen worden nagekomen. Uiteraard zijn er verschillen qua transparantie en inzichtelijkheid van algoritmische besluitvorming. Bij zogeheten supervised machine learning zal het beslisalgoritme bijvoorbeeld doorgaans ontwikkeld worden op basis van een voorafgaande hypothese van de databewerkers, terwijl bij data mining of unsupervised learning juist gezocht wordt naar onbekende en onvermoede verbanden. Het is moeilijk om in het algemeen uitspraken te doen over de mate waarin het gebruik van deze methodes gerechtvaardigd kan zijn, omdat er veel verschillende technische mogelijkheden zijn waarvan wij hier slechts een zeer oppervlakkige indruk hebben gegeven.
De centrale vraag voor dit hoofdstuk is dus, als gezegd, hoe het (Nederlandse) recht de keuzes normeert van de werkgever die gebruikmaakt van algoritmes bij de vormgeving van een selectieprocedure (hierna ook aan te duiden als: datagedreven personeelsselectie). Om de omvang van deze bijdrage enigszins te beperken, passen wij het recht toe op het hiervoor besproken voorbeeld van datagedreven personeelsselectie. In dit voorbeeld is als gezegd sprake van supervised machine learning. Bekend zal zijn dat er bijna geen regels in het Nederlandse arbeidsrecht zijn die specifiek zien op personeelsselectie.9 Het wordt wel indirect gereguleerd in gelijkebehandelingswetgeving.