3.4.1. Databanken

Documentgegevens:

drs. J.J.F.M. Borking, datum 26-05-2010

Datum: 26-05-2010
Auteur: drs. J.J.F.M. Borking
JCDI: JCDI:ADS575280:1
Vakgebied(en): Civiel recht algemeen (V)

Voor dit proefschrift, dat zich richt op privacybeschermende architecturen en technologieën van informatiesystemen, is het van belang de elektronische databank en het informatiepakhuis (data warehouse) nader te beschouwen. Figuur 3.1 geeft de vijf dynamische gegevensstromen in een data warehouse weer.

De eerste stroom (1) betreft de instroom van de gegevens in het data warehouse vanuit interne of externe operationele systemen. Deze gegevens kunnen ook bestaan uit gekochte bestanden. De gedetailleerde gegevens zijn afkomstig van bijvoorbeeld online transacties, e-mails, foto's, tekeningen etc. De tweede stroom (2) is de opgaande stroom. Na data reduplicatie worden de gegevens zonder redundantie opgeslagen. Dit niveau is doorgaans een aggregatieniveau hoger dan de operationele systemen. De tijdsdimensie wordt van datum-uur-minuut-seconde ingedikt naar bijvoorbeeld maandniveau. Dit aggregatieniveau kan nog verder worden ingedikt en in aparte bestanden worden opgeslagen. De derde stroom (3) is de uitgaande stroom. Hier worden vanuit de inhoudelijke gegevens zo actueel en accuraat mogelijke rapporten gemaakt om het managen en het nemen van beslissingen te ondersteunen. Bij deze outflow komen de gegevens beschikbaar voor diverse gebruikers. De gebruikers gebruiken deze gegevens weer vaak voor data mining De vierde stroom (4) betreft de neergaande stroom. Omdat er alleen maar gegevens aan het data warehouse worden toegevoegd is het noodzakelijk om onbeheersbare databases te voorkomen. Vandaar dat regelmatig delen van het data warehouse uit de operationele data warehouse worden weggehaald en afzonderlijk op schijven en andere gegevensdragers worden opgeslagen. Mochten deze gegevens weer nodig zijn dan kunnen de data weer worden toegevoegd aan het data warehouse. De vijfde stroom (5) is de meta-stroom. Metadata zijn gegevens over de gegevens in het data warehouse. Daarin kunnen bijvoorbeeld de oorsprong van bepaalde gegevenssoorten zijn vastgelegd.

Figuur 3.1: Vijf dynamische datastromen in een data warehouse, Celko, 1995 (vertaald in Nederlands).

id-b2675570-f3cf-45ee-a6a1-8d4630391d08

Organisaties kunnen tegenwoordig veel sneller en nauwkeuriger grote hoeveelheden data verzamelen, in tabelvorm rangschikken en van verwijzingen voorzien dan met de ouderwetse papieren archieven die eens de moderne bureaucratie kenmerkten. Tot het midden van de jaren negentig van de vorige eeuw waren vaak de bestaande gegevensbestanden te groot en te complex en de gegevens te divers, onjuist en onvolledig. Hierdoor was op eenvoudige vragen, zoals "welke product-marktcombinaties doen het goed?", geen correct antwoord te verkrijgen.

Doordat data mining en knowledge discovery in databases (KDD) een betere informatiewinning en kennisdistillatie mogelijk maken, is in de beantwoording van vragen zoals "welke product-marktcombinaties doen het goed?" grote verandering in gekomen. In drie stappen1 kunnen uit de gegevens tegenwoordig patronen en verbanden worden ontdekt. Eerst worden de data door een onderzoeker geprepareerd (dat wil zeggen geschoond, geselecteerd en ondergebracht in gegevensdomeinen). Vervolgens kan de onderzoeker met zoekalgoritmen `graven' (dat wil zeggen zeven, comprimeren en transformeren) in geselecteerde groepen gegevens. Daarna analyseert de onderzoeker de opgeleverde gegevens om te zien of hij nieuwe en vooral relevante informatie kan toevoegen aan de geselecteerde domeinen. Het gaat er dan met name om dat de onderzoeker nieuwe relaties en patronen binnen dataverzamelingen kan ontdekken.2 Bijvoorbeeld, vele bedrijven in de particuliere sector proberen zoveel mogelijk gegevens over hun klanten te verzamelen en hun marketingstrategie daarop vervolgens specifiek (één-op-éénbenadering) af te stemmen. Een bankier in Maryland (USA) vergeleek openbaar beschikbare informatie over het ontslag van patiënten uit ziekenhuizen met zijn eigen cliëntenlijst om na te gaan of een van cliënten kanker had. Bij een positieve hit, beëindigde hij de door zijn bank verstrekte lening.3 Organisaties combineren en verrijken transactiegegevens (gebruik van creditcards, mobiele telefoongesprekken, etc.) van een persoon met bijkomende gegevens. Die gegevens zijn afkomstig van klantenkaartprogramma's, klantonderzoeken, reclamewedstrijden, cookies van websites, productinformatie verzoeken, focusgroepen, callcenter contacten, feedback van consumentenfora en creditcardtransacties, etc. Zowel particuliere bedrijven als overheidsdiensten gebruiken enorme hoeveelheden opgeslagen persoonsgegevens over consumenten en burgers om op basis van de éénloketgedachte of de één-op-éénbenadering hun dienstverlening te verbeteren. Om personen en verdachte activiteitenpatronen te herkennen kan de politie verschillende gegevensverzamelingen met elkaar vergelijken. In forensische DNA-databanken liggen DNA-profielen en DNA-sporenmateriaal opgeslagen. Hiermee kan het DNA-profiel dat is aangetroffen op de plaats van het misdrijf worden vergeleken met profielen van eerder veroordeelde misdadigers. In de toekomst kunnen en zullen DNA-sporen op brieven, sigarettenpeuken, drinkglazen, maar ook verloren lichaamshaar door werkgevers gebruikt kunnen worden om mensen o.a. op hun werkplek te controleren en volgen.4 DNA-sporen op brieven, sigarettenpeuken, drinkglazen, maar ook verloren lichaamshaar gebruikt worden. De sciencefictionfilm Gattaca (1997)5 laat zien hoe dit mogelijk in zijn werk zal gaan en laat een mogelijk toekomstscenario zien. Met verfijnde technieken kunnen analisten gegevens ook 'uitdiepen'. Dit wil zeggen dat de gegevens tot grote diepte geanalyseerd worden om (tot dan toe onbekende) patronen te ontdekken die weer eventueel tot verder onderzoek leiden. Iedere transactie heeft een 'gegevenstraject', dat met een individu of een bepaald categorie behorend persoon of plaats verbonden kan worden. Daaraan voegt de analist vaak nog gegevens uit openbare bronnen toe, zoals statistische gegevens van bijvoorbeeld het Nederlandse CBS of EuroStat. Om de bestaande data te verrijken kan hij geodemografische profielen combineren met gegevens van non-profitorganisaties of bedrijven die gespecialiseerd zijn in gegevensverzameling.

Hiermee kan de analyst `psychogrammen'6 van individuen of profielen van groepen mensen maken. Heuristische kennisontdekking in databanken (KDD) kan patronen zichtbaar maken die ook voor de betrokken individuen verborgen en onbekend zijn en niet voor de hand liggen. KDD kan daarnaast gebruikt worden om toekomstig gedrag te voorspellen.7 Via psychogrammen kunnen organisaties toekomstige transacties uitlokken en op een steeds persoonlijkere manier aan consumenten aanbieden. Een voorbeeld hiervan is de wijze waarop Amazon.com klanten boeken of dvd's aanbiedt die hen mogelijk bevallen op grond van eerdere aankopen.8 Specifieke software maakt algoritmisch toezicht mogelijk door databases met andere toezichtsystemen te combineren. Hiermee kunnen opgenomen beelden of data vergeleken worden met gegevens die in de database zijn opgeslagen. Marketingbureaus, politierechercheurs en grensbewakers passen deze vorm van dataveillance dan ook uitgebreid toe. De overheid kan burgers hiermee als potentiële misdadigers of terroristen bestempelen.

Landsgrenzen worden 'slimme grenzen', omdat de grensbewaking ondersteund wordt door grote databases. Die verwerken informatie over individuen en hun reisgedrag. De visie hierbij is dat de grensbewaking "the last line of defense and the first" is.9 Justitie gebruikt profielen uit deze databases om zwarte lijsten van gevaarlijk geachte passagiers op te stellen of om groepen personen te herkennen die een risico zouden kunnen gaan vormen voor onze samenleving.10 De betrokken personen kunnen vervolgens zeer moeilijk van een dergelijke (niet-transparante) stigmatisering afkomen. Bovendien kan het leiden tot discriminatie van bepaalde bevolkingsgroepen omdat de profielen tot bepaalde aannames kunnen leiden. Sluitend is overigens een dergelijke grensbewaking niet.

Toon alle voetnoten

Voetnoten

Voetnoten

Borking, 1999, p. 51-66.

Celko & McDonald, 1995.

Gerapporteerd in het artikel van C. Walter, A linie Privacy Please over de research van Latanya Sweeney in Scienific American July 2007, p. 74-75.

Koops, e.a., 2005, p. 20.

Gattaca is een Amerikaanse sciencefictionfilm uit 1997. De regisseur is Andrew Niccols. Vincent, de hoofdrolspeler, neemt de identiteit van een genetisch perfecte man aan: Jerome Morrow. Jerome voorziet Vincent van haar, huid, bloed en urinemonsters, zodat Vincent alle dagelijkse toegangscontroles en keuringen doorstaat.

Psychologische portretten gelardeerd met demografische statistieken, die zo gedetailleerd zijn dat de betrokkenen als zij ermee geconfronteerd worden, geschokt zijn over datgene wat buitenstaanders van hen weten.

Tot wat voor gevolgen profiling kan leiden is te zien in de in 2002 uitgebrachte de film Minority Report is een Amerikaanse sciencefictionfilm uit 2002, geregisseerd door Steven Spielberg.

Fink & Kobsa, 2000, p. 209-249.

www.digitalforum.accenture.com.

10.

Ball, e.a., 2006, p. 23.