Gebruiker:Soyboydaniel/Kladblok

Uit Wikipedia, de vrije encyclopedie

Lassy (corpus)[bewerken | brontekst bewerken]

Lassy is een groot corpus van syntactische annotaties die gebruikt kunnen worden voor onderzoek binnen bijvoorbeeld de taalkunde en informatiekunde.[1] Lassy was een project uitgevoerd in opdracht van de Nederlandse Taalunie[2]

Lassy is een afkorting van Large Scale Syntactic Annotation of written Dutch. In het Nederlands, grote schaal syntactische annotatie van geschreven Nederlands.[2] Het corpus bestaat uit een grote hoeveelheid geschreven Nederlandse tekst van richting de 1,000,000 woorden. Verder is er een heel groot corpus van 700,000,000 woorden. Deze zijn allebei syntactische geannoteerd.[2]

Geschiedenis[bewerken | brontekst bewerken]

Lassy ontstond als een STEVIN-project[3], een Vlaams-Nederlandse samenwerking in opdracht van de Nederlandse Taalunie. Het was deel van een programma voor taalverwerkings-technologie.[2] De Rijksuniversiteit Groningen en de Katholieke Universiteit Leuven zijn beiden betrokken bij het project. De betrokken onderzoekers zijn onder andere Erik Sang, Gosse Bouma en Gertjan van Noord uit Groningen en Frank van Eynde, Ineke Schuurman en Vincent Vandeghinste uit Leuven.

Het doel van het project was het uitbreiden van de hoeveelheid beschikbare syntactisch geannoteerde Nederlandse teksten en woorden. Hierbij was een deel van het doel ook het beschikbaar stellen van teksten vanuit een breder assortiment aan genres en onderwerpen. Als laatste was er ook het doel om de tools te verbeteren voor het gebruik van Lassy en vergelijkbare corpussen.[4]

Initiatieven[bewerken | brontekst bewerken]

Lassy is betrokken geweest bij een variatie aan initiatieven. Een aantal voorbeelden ter illustratie.[2]

  • In 2007 werd een lezing gesponsord van Anetta Frank bij een workshop in Praag.
  • In 2009 werd een lokale organisatie opgezet in Groningen van de zevende conferentie over Treebanks and Linguistic Theories.
  • In 2010 werd een workshop gehouden in Groningen genaamd Distributional Semantics Workshop. Hierbij werden een variatie experts uitgenodigd om te spreken.
  1. ivdnt.org, Lassy Groot-corpus. INT Taalmaterialen. Geraadpleegd op 22 september 2022.
  2. a b c d e LASSY: Large Scale Syntactic Annotation of written Dutch. www.let.rug.nl. Geraadpleegd op 22 september 2022.
  3. Niet te verwarren met het Stevin-project.
  4. van Noord, LASSY voorstel. Geraadpleegd op 23 september 2022.