De Econometrist

De Econometrist neemt een statistische kijk op de wereld.

Econometrie

Profileren kun je leren: ethische kwesties rondom profileren met data

In bijna ieder studiecurriculum wordt tegenwoordig met data gewerkt. Studies zijn er steeds meer op gericht om een generatie met een hoge informatie-competentie te creëren. Ondanks dat er veel aandacht is voor hoe met data om te gaan, is er nog maar weinig rond het doceren van ethiek omtrent data. Met kennis komt macht en macht brengt verantwoordelijkheid met zich mee. De nieuwe generatie met kennis over data, zal dus ook bepaalde verantwoordelijkheden hebben. In een eerder artikel schreef ik wat de nieuwe datawet voor bedrijven zal betekenen, maar nóg belangrijker is het dat bedrijven en hun werknemers de intuïties van de ethische kwesties achter het gebruik van data snappen. Deze week zal ik de focus leggen op een kwestie in het bijzonder: profileren op basis van data.

Wat is profileren?

Eenvoudig gezegd is dit het creëren of identificeren van bepaalde groepen met behulp van data zoals uiterlijk, kledingkeuze, koophistorie, gehuwd/ongehuwd etcetera. Dit lijkt vrij onschuldig en is bijvoorbeeld een van de voornaamste activiteiten van marketing bedrijven, die profileringen koppelen aan een advies en als service verkopen. Niet zo spannend, lijkt het.

Wanneer is het een probleem?

De eerste manier waarop profileren problematisch is, is wanneer je niet wilt dat bepaalde data van jou gebruikt wordt, maar dit toch gebeurt. Een bekend voorbeeld is het profileren op ras in de zoektocht naar overtreders van de wet, waar veel agenten in de Verenigde Staten van beticht worden. Niet alleen is het heel vervelend om aangehouden te worden omdat je dezelfde uiterlijke kenmerken deelt als mensen die in het verleden een overtreding hebben begaan, het is ook nog eens een slechte manier van daders vinden. Bijvoorbeeld: zelfs als alle bankovervallers Marokkaanse Nederlanders zijn, dan is het alsnog slechts een heel klein percentage van alle Marokkaanse Nederlanders bankovervallers. De kans is daarom nog steeds zeer klein dat een agent een bankovervaller treft wanneer hij Marokkaanse Nederlanders gaat aanhouden. Bovendien hoort het recht blind te zijn; vrouwe Justitia heeft niet voor niets een blinddoek om gekregen. Zaken als die van rapper Typhoon, die aangehouden werd omdat hij als jonge donkere man in een sportauto reed, zijn dus ongewenst. In een dergelijk geval is het redelijk duidelijk dat er sprake is van een onethische manier van beslissingen nemen. Maar wanneer computers gebruikt worden om data te verwerken, is dat vaak een stuk lastiger te bepalen. We bekijken twee voorbeelden waarbij het fout gaat.

Docenten keuren

In 2009 werd in Washington een systeem ontwikkeld om slecht presterende docenten te signaleren, zodat ze vervangen konden worden door betere docenten [1]. Op basis van een toets die de kinderen jaarlijks kregen, werd voor iedere klas een voorspelling gemaakt van wat de klas het jaar daarop moest halen. Werd deze score niet gehaald, dan moest dat wel aan de docent liggen, want hoe anders kan de klas collectief te laag scoren, was de gedachte.

Het resultaat was echter dat de verkeerde docenten werden ontslagen. Juist veel docenten die als goede, hardwerkende docenten te boek stonden werden door het model aangemerkt als slechte docenten. Hoe kon dit? Het bleek dat het model een prikkel was voor docenten. Veel docenten kregen het gevoel dat hun baan op het spel stond. Slechte docenten kregen het heet onder de voeten en voelden hun ontslag aankomen. Het resultaat was dat ze het heft in eigen handen namen: ze verbeterden de scores van de jaarlijkse toets van hun leerlingen. Dit zorgt ervoor dat het lijkt alsof de leerlingen op de juiste koers zijn en de docent haar werk goed doet. Het probleem komt echter het volgende jaar. De score die de groep het jaar daarop moet halen, is gebaseerd op de foutieve score van het jaar ervoor en deze score valt dus te hoog uit. De docent van een klas hoger krijgt daarom een klas die onder het niveau zit en dus naar een té hoog niveau getild moet worden. Dit doel bleek niet altijd haalbaar voor deze eerlijke hardwerkende docenten, waardoor zij aangemerkt werden door het systeem als slechte docenten en dus ontslagen werden! Deze profilering middels data is dus niet alleen fout, het veroorzaakt zelf de fouten.

Gebruik van persoonlijke data

Een ander probleem is het gebruik van data welke niet goed (genoeg) voorspelt. Werkgevers in de VS vragen sollicitanten dikwijls om een kredietcheck of de postcode van de woning van de sollicitant [2]. Deze data, samen met andere data, kan worden gebruikt om te bepalen wie door de eerste ronde heen van een sollicitatieproces heen komt. In het geval van de kredietwaardigheid en postcode is de gedachte dat iemand met een slechte kredietstatus of iemand uit een wijk met veel criminaliteit niet te vertrouwen is. Alhoewel dit niet per se slechte indicatoren zijn, zijn ze ook zeker niet perfect. Als slechts 10% van de sollicitanten uit een ‘foute’ wijk of met een ‘foute’ kredietscore wél te vertrouwen zijn, zullen jaarlijks vele duizenden onterecht mensen buiten de boot vallen. Bovendien zullen zij niet bij één werkgever de dupe zijn, maar bij allen die een dergelijk algoritme gebruiken. Wat het voor hen nóg vervelender maakt, is dat zij hun woning of kredietwaardigheid niet kunnen wijzigen zonder geld. En dat geld hebben ze niet, want ze kunnen geen baan krijgen…

Wat zegt de wet en wat kan er gedaan worden?

De Algemene Verordening Gegevensbescherming geeft een antwoord op wanneer data wel en niet gebruikt mag worden om te profileren. Volgens deze wet mag profileren niet wanneer er [3]

  1. sprake is van een volledig geautomatiseerde beslissing,
  2. rechtelijke gevolgen voor de betrokken personen zijn
  3. iemand op soortgelijke wijze als de eerste twee punten benadeeld wordt.

De eerste twee standpunten zijn vrij duidelijk. De derde is enigszins vaag, zodat bedrijven beter het zekere voor het onzekere kunnen nemen. Om aan deze drie voorwaarden te voldoen, zijn er mijns inziens twee  zaken die bedrijven op orde moeten hebben als ze willen blijven profileren.

Feedback mechanismen

Dat er fouten gemaakt worden, is geen ramp. Wanneer schooldirecteuren of recruiters in plaats van modellen mogen bepalen wie een baan wel of niet verdient, worden er per slot van rekening ook fouten gemaakt. Maar, hier is nog ruimte voor overleg en discussie of het ontslag wel gerechtvaardigd is. Modellen, net als de mensen die ze ontwerpen, houden niet van interactie. Ze zijn vrij stug in hun oordeel en in sommige gevallen ook nog eens zodanig lastig te interpreteren dat de factoren die het ontslag bepalen niet te achterhalen zijn. Maar er is nog een probleem met modellen: ze krijgen niet de feedback die menselijke beoordelaars wel krijgen. Wanneer een model op basis van oude data alle mensen uit een bepaalde wijk aanstipt als niet te vertrouwen, zal het model nooit leren welke mensen uit deze wijk wél te vertrouwen zijn. Op dezelfde manier zal een model dat docenten ontslaat nooit leren of dit besluit gerechtvaardigd was. Om dit te voorkomen, is feedback nodig. De ontwerpers van het systeem zullen het model continu moeten testen en aanpassen zodat het door de tijd heen verbetert.

Menselijke factor

Een basisprincipe uit de gedragseconomie is dat mensen reageren op prikkels. Zoals uit het voorbeeld van de docenten blijkt, is het toevoegen van een regulerend model een nieuwe prikkel. De markt, of een ander entiteit welke gereguleerd dient te worden, zal zich aanpassen aan deze prikkel en dus niet dezelfde meer zijn als voorheen. De effecten van deze prikkels zullen ook in kaart gebracht moeten worden. Zo hadden vele honderden docenten niet ontslagen hoeven worden als een gedragseconoom had nagedacht over de implementatie van het model. Bij het implementeren van een profileringsmodel dient men dus nieuwe prikkels in kaart te brengen.

Conclusie

Door mensen te profileren op basis van allerlei data, begeven bedrijven en instellingen zich op glad ijs. Op vele onvoorziene manieren kunnen hun profileringen negatieve gevolgen hebben voor de mensen die zij profileren, en misschien uiteindelijk wel voor henzelf. Bedrijven en personen zijn erbij gebaat om feedback mechanismen in werking te stellen en goed na te denken over de prikkels die het profileerproces opleveren. Zodoende kan men de vruchten van de modellen op ethische wijze plukken.

Bronnen:

[1] Levitt, S. D., & Dubner, S. J. (2009). Superfreakonomics: Global Cooling, Patriotic Prostitutes and Why Suicide Bombers Should Buy Insurance. New York Times, New York.

[2] O’Neil, C. (2016). Weapons of math destruction: How big data increases inequality and threatens democracy. Broadway Books.

[3] https://www.emerce.nl/achtergrond/profiling-nu-verboden-onder-avg

 


Dit artikel is geschreven door Tim van Schaick

timvanschaik

 

Deel dit artikel:

By Daniele Zedda • 18 February

← PREV POST

By Daniele Zedda • 18 February

NEXT POST → 34
Share on