Gebruiker:Carlijn0211/Kladblok

Uit Wikipedia, de vrije encyclopedie

BERTje (taalmodel)[bewerken | brontekst bewerken]

BERTje is een Nederlandse versie van het taalmodel BERT. Het model is getraind op een grote dataset van 2.4 miljard tekens, waardoor het zeer effectief is voor het verwerken van Nederlandse tekst voor verschillende NLP-taken.

Achtergrond[bewerken | brontekst bewerken]

BERTje is gebaseerd op het taalmodel BERT (Bidirectional Encoder Representations from Transformers). BERT heeft vooral veel succes op het gebied van Engelse NLP-taken, omdat het hoofdmodel getraind is op het Engels. Voor andere talen zou men het meertalige BERT model kunnen gebruiken. Dit model is getraind op alle Wikipedia pagina's van 104 verschillende talen, waaronder het Nederlands. Een eentalig model kan echter beter presteren op taken in een specifieke taal, en Wikipedia is niet representatief voor algemeen taalgebruik. Er was dus behoefte aan taalmodellen in andere talen. Het Italiaanse model is getraind op Twitter-gegevens, maar dat is mogelijk ook niet representatief voor algemeen taalgebruik. Andere modellen zijn gebaseerd op een combinatie van Wikipedia artikelen en aanvullende gegevens uit bijvoorbeeld nieuwsartikelen.

De ontwikkeling van BERTje[bewerken | brontekst bewerken]

Met als doel de effectiviteit van het gebruik van multi-genre data in een eentalig model te laten zien en NLP-onderzoek naar het Nederlands te voorzien van een goed presterend model hebben onderzoekers van de Rijksuniversiteit Groningen het taalmodel BERTje ontwikkelt, een Nederlandse versie van het taalmodel BERT. Voor Nederlandse NLP-taken presteert BERTje consequent beter dan het originele taalmodel BERT.

Pre-training data[bewerken | brontekst bewerken]

Voor het pre-trainen van BERTje is er gebruik gemaakt van een dataset met ongeveer dezefde grootte en diversiteit als het originele Engelse BERT model. De uiteindelijke dataset bevat 12 GB aan ongecomprimeerde tekst, dat zijn ongeveer 2.4 miljard tokens. [1]

Referenties[bewerken | brontekst bewerken]

  1. Wietse de Vries, Andreas van Cranenburgh, Arianna Bisazza, Tommaso Caselli, Gertjan van Noord, & Malvina Nissim. (2019). BERTje: A Dutch BERT Model.