Gebruiker:Johqn/Kladblok

Woordbetekenisverheldering (WBV) is het bepalen van de betekenis van een woord op basis van het gebruik ervan in een specifieke zin of andere vorm van context. Het is vooral relevant in gevallen van polysemie of homonymie. Het speelt een vitale rol in het beter begrijpen van natuurlijke talen en het verhelderen van ambiguïteiten hierin. Het menselijk brein is door zijn systeem van neurale netwerken zeer goed in het herkennen van de betekenis van woorden aan de hand van context. Het succesvol en op brede schaal toepassen van WBV in het gebied van computerlinguïstiek is echter een lange-termijn onopgelost probleem gebleken.

Gebruik in computerlinguïstiek[bewerken | brontekst bewerken]

Woordbetekenisverheldering is een essentieel onderdeel van veel gebieden binnen de computationele taalkunde, ofwel computerlinguïstiek. Door WBV in de vorm van een algoritme toe te passen kunnen programma's natuurlijke talen met grotere nauwkeurigheid en contextgevoeligheid interpreteren. Dit leidt tot meer logisch samenhangende en contextueel passende resultaten. Voorbeelden van deelgebieden waar WBV van groot belang is zijn computervertaling, zoekmachines en sentimentanalyse.

Eén van de belangrijkste inputs benodigd voor het correct functioneren van een WBV-algoritme is de tekst waarin het woord staat waarvan de betekenis verhelderd moet worden. Deze tekst bevat naast het woord ook belangrijke context, bestaande uit de omliggende woorden en zinnen die aanwijzingen geven over de betekenis van het woord. Daarnaast is een externe lexicale bron nodig, zoals een woordenboek of een thesaurus, zodat het algoritme toegang heeft tot een lijst van woorden en de bijbehorende betekenissen.

Het is ook mogelijk om door middel van machine learning WBV-algoritmes te trainen. Hierbij worden er in plaats van externe lexicale bronnen speciale datasets gebruikt, die zonder toezicht door middel van clusteranalyse of met toezicht door middel van labels ambigue woorden aan de juiste context en betekenis koppelen. Uit onderzoek blijkt dat algoritmes die getraind zijn met machine learning beter zijn in het vastleggen van de nuances van de context, en dus vaker de gewenste betekenis van het woord geven.

Geschiedenis[bewerken | brontekst bewerken]

Woordbetekenisverheldering als concept ontstond tijdens de begindagen van computervertaling in de jaren veertig, wat het één van de oudste problemen in computerlinguistiek maakt. Warren Weaver was in zijn beroemde memorandum over vertaling uit 1949 de eerste die voorstelde computers te gebruiken om teksten te vertalen.^[1] Vroege WBV-algoritmes vertrouwden op met de hand gecodeerde taalregels om woordbetekenissen te verhelderen.

In de jaren zeventig en tachtig zagen we de opkomst van WBV wiens kennis afkomstig was uit grootschalige externe bronnen, wat de voorgaande hand-gecodeerde benadering verving. Onderzoekers begonnen lexicale bronnen, zoals woordenboeken en thesauri, te benutten om de verhelderingen te verbeteren. Ook deze systemen maakten vaak gebruik van handgemaakte regels, gebaseerd op kennis uit de taalkunde of woordenboeken.

De jaren negentig markeerden een verschuiving naar machine learning-benaderingen voor WBV. Onderzoekers onderzochten het gebruik van leertechnieken met toezicht, waarbij ze gebruik maakten van gelabelde datasets om modellen te trainen die woordbetekenissen automatisch kunnen verhelderen.

In de jaren 2000 werden er steeds meer statistische methoden benut voor WBV. Hieronder valt ook het gebruik van probabilistische modellen, zoals Naive Bayes, en de verkenning van leertechnieken zonder toezicht, zoals clusteranalyse.

Bronnen, noten en/of referenties

↑ Weaver, Warren (1949), Machine Translation of Languages: Fourteen Essays.. Cambridge, Ma: MIT Press.

[1] Weaver, Warren (1949), Machine Translation of Languages: Fourteen Essays.. Cambridge, Ma: MIT Press.

[1]