Part-of-speech tagging

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Part-of-speech tagging is een softwaremethode die parts-of-speech (woordsoorten en eventuele kenmerken) toekent aan woorden in een zin. Gezien het feit dat woorden vaak tot meer dan één woordsoort kunnen behoren ("eten" kan bijvoorbeeld een werkwoord zijn, maar ook een zelfstandig naamwoord) is het de taak van de tagger om te desambigueren tussen de verschillende mogelijkheden.

Er bestaan stochastische taggers, die gebruikmaken van getagde corpora als trainingsmateriaal en die vaak gebruikmaken van de waarschijnlijkheid dat een bepaald woord tot een bepaalde woordsoort behoort op basis van de twee voorgaande woorden. Dit noemen we een trigramtagger. Er bestaan regelgebaseerde taggers, die gebruikmaken van linguïstische regels over welke woordsoort in welke positie kan voorkomen. Daarnaast bestaan er ook nog hybride taggers die gebruikmaken van een combinatie van beide methodes.