Einde inhoudsopgave
Privacyrecht is code (R&P nr. ICT1) 2010/5.12.6
5.12.6. Automatische ontologieproductie
drs. J.J.F.M. Borking, datum 26-05-2010
- Datum
26-05-2010
- Auteur
drs. J.J.F.M. Borking
- JCDI
JCDI:ADS582432:1
- Vakgebied(en)
Civiel recht algemeen (V)
Voetnoten
Voetnoten
Spyns & Hogben, 2005, p. 1.
Hameed, Sleeman & Precee, 2001.
Spyns & Hogben, 2005, p. 1-14.
Reinberger, Daelemans & Spyns, 2005, p. 5-8.
Zipf, 1949.
Spyns & Hogben, 2005 p. 4-5.
De triples zijn zinvol voor het kennisdomein.
De triples zijn niet te algemeen geformuleerd maar geven de belangrijke termen van het domein weer.
Coverage betekent: percentage van alle triples in de corpus.
Spyns & Hogben, 2005, p. 7.
Spyns & Hogben, 2005, p. 10.
Er is bewust maar één taalversie (Engels) gebruikt. De problemen zouden onoverkomenlijk zijn als richtlijnen in verschillende taalversies zouden worden gebruikt.
Uit het bovenstaande blijkt dat het ontwerpen van privacyontologieën een zeer tijdrovende en arbeidsintensieve zaak is. 1 Dit komt onder meer door het inschakelen van experts uit het betreffende kennisdomein (de privacybescherming). Dit uitvoerige proces van kennisvergaring is volgens Hameed onvermijdelijk, omdat er anders geen zekerheid kan ontstaan over de geldigheid van de te ontwerpen ontologieën binnen een bepaald kennisdomein.2 Hogben, Spyns & Borking hebben in 2005 onderzocht of binnen een beperkte tijd en met minder menskracht sneller dan volgens de methode van Hameed kwalitatief hoogwaardige triples, de bouwstenen voor ontologieën, automatisch rechtstreeks uit de privacyrichtlijnen geëxtraheerd konden worden.3 Gepoogd werd langs de weg van 'human language technology' (HLT) en 'information extraction technology' (IET) `triples' te genereren. Als dat zou lukken, dan was de volgende vraag of de triples automatisch zodanig kunnen worden geëvalueerd, dat die evaluatie voldoet aan dezelfde kwaliteits- (kennis)standaarden van verschillende domeinexperts? Automatiseren was gewenst, want het evaluatiewerk blijkt voor experts zeer tijdrovend en afstompend te zijn. Zeker wanneer duizenden triples moeten worden gelezen, beoordeeld en van een kwalificatie moeten worden voorzien verdeeld over drie niveaus, lopend van `valid' (+) (dus bruikbaar in de context van het ontwerpen van een privacyontologie), via `neutra' (0) naar 'not-valid' (—).
Het experiment verliep als volgt: de triples werden geëxtraheerd uit het `privacycorpus' (de tekst waarop de bewerking wordt uitgevoerd, i.c. de Richtlijn 95/46/EG) door een door de universiteiten van Antwerpen (CNTS) en Tilburg (ILK) ontwikkelde 'memory-based shallow parser',4 een zogenaamde `text miner'. Als controletekst voor de vaststelling van de juiste werking van de `text miner' werd de tekst van de Wall Street Journal gebruikt.
De geproduceerde triples werden onafhankelijk van elkaar gevalideerd door twee kennisdomeindeskundigen, een privacyjurist en een `knowledge-engineer' gespecialiseerd in privacy en vertrouwens-(trust)-vraagstukken. De eerste poging leverde heel veel 'not-valid' triples op. Na analyse bleek dat de meeste van 'notvalid' triples werden veroorzaakt door de overwegingen (de teksten die met `whereas' beginnen) die vooraf gaan aan de eigenlijke tekst van de Richtlijn 95/ 46/EG. Vervolgens is de corpus door de jurist geschoond waarbij alle overbodige formuleringen werden verwijderd en vervolgens `gelemmatized'. `Lemmatize' houdt in dat de woorden worden gereduceerd tot hun meest basale vorm, bijvoorbeeld: working, works, worked wordt work, maar de tekst blijft verder ongewijzigd. De outputparameters van de `text miner' werden na een aantal 'trial and error'-pogingen ingesteld op triples met de structuur:
"Subject-Verb-Object", zoals bijvoorbeeld: <third_country, ensure, level_of - protection>.
Triples met de structuur: "noun phrase-preposition-noun phrase", zoals: <Treaty, on, European_Union>.
Triples met de structuur: "subject-verb-prepositional object", zoals: <controller, establish, in_Member_State>.
Dat leverde 22 producties op van tussen de 1.116 en 1.223 triples. De `text miner' werd zo ingesteld dat automatisch kon worden vastgesteld welke woorden relevant zijn in de triples. Zo verschenen 416 woorden eenmaal in de tekst van de Richtlijn 95/46/EG en één woord 1.163 keer. Uit fundamenteel onderzoek van Zipf,5 een Amerikaanse taalkundige en filoloog die statistisch onderzoek deed naar woorden die in verschillende talen voorkomen, is gebleken dat wanneer een woord veel voorkomt, de betekenis daarvan afneemt. In het corpus komt het woord "the" 1.163 keer voor en op grond van Zipf's criteria houdt dit in dat dit woord geen of zeer weinig betekenis heeft. In tegenstelling tot het woord "assurance" dat in de corpus slechts één keer voorkomt en als zeer betekenisvol wordt gekwalificeerd. De frequentie van een woord in een tekst bepaalt de frequentieklas (FC). De frequentieklas van een woord wordt uitgedrukt in het aantal malen dat het woord voorkomt. Dus eenmaal voorgekomen levert de FC 1 op en bij 1.163 keer levert de FC 1.163 op. Uiteindelijk werden de woorden uit FC 1 tot en met FC 49 als relevant beschouwd.6 Als alleen de 49 relevante FC's van het privacycorpus in aanmerking worden genomen, dan blijkt de herkenning van niet relevante triples te zijn: `recall' 95,58%, precisie7 96,29%, en accuratesse8 95,04%. Er zijn 22 combinaties voor de triple productie uitgeprobeerd. De overall score voor alle FC's is wat betreft de recall 89,91%, de precisie 27,43% en voor de dekking (coverage9) 79,88%.10 De experts rapporteerden, dat:
"too many irrelevant results are produced — the text miner not being able to skip over sections that are only of marginal interest for the privacy topic."11
Het is mogelijk dat de resultaten zijn beïnvloed door het feit dat de in de Engelse taal gestelde wetteksten (EU-richtlijnen) termen bevatten, die alleen maar relevant zijn binnen het juridisch kennisdomein en niet daarbuiten, terwijl de `unsupervised text miner' is ingesteld op allerlei soorten teksten (bijvoorbeeld in kranten).12 De onderzoekers concluderen, dat vergeleken met de Hameedmethode de automatische evaluatiemethode in staat is om ongeveer in de helft van de gevallen, een geproduceerde triple terecht als geschikt te kwalificeren en een irrelevante triple te verwerpen. De onderzoekers menen dat hoewel de scores bescheiden zijn, de semi-geautomatiseerde aanpak bruikbaar is omdat er voldoende tijd wordt bespaard vergeleken met de conventionele methode (inschakelen van experts). Deze aanpak is interessant voor het modelleren van ontologieën. Ter mogelijke verbetering van de resultaten wordt voorgesteld om als controle tekst niet kranten te gebruiken, maar een aantal EU-richtlijnen te nemen, waardoor de classificatieproblemen tussen de domeinexperts en de experts die de `unsupervised text miner' bedienen aanmerkelijk zouden kunnen afnemen. Een juridisch deskundige blijft zonder meer noodzakelijk om de wettekst te analyseren en zo nodig op te schonen. Vooralsnog is meer empirisch onderzoek nodig om het proces van 'triple mining' te verbeteren.