Gebruiker:Niekbiesterbos/Kladblok

Bidirectional Encoding Relationship Transformers, kortweg BERT, is een Machine learning techniek gebaseerd op transformer voor Natural language processing (NLP) pre-training ontwikkeld door Google LLC. Bert is ontwikkeld en gepubliceerd in 2018 door Jacob Devlin en zijn collega's van Google. In 2019 kondigde Google aan dat het was begonnen BERT te gebruiken in zijn zoekmachine en eind 2020 gebruikte het BERT in bijna elke Engelstalige zoekopdracht. Een literatuuronderzoek uit 2020 concludeerde dat "in iets meer dan een jaar tijd BERT een alomtegenwoordige basislijn is geworden in NLP-experimenten", en telde meer dan 150 onderzoekspublicaties waarin het model werd geanalyseerd en verbeterd.

Het originele Engelstalige BERT heeft twee modellen: (1) de BERT_BASE: 12 encoders met 12 bidirectionele self-attention heads, en (2) de BERT_LARGE: 24 encoders met 16 bidirectionele self-attention heads. Beide modellen zijn voorgetraind op basis van ongelabelde gegevens uit de BooksCorpus dataset met 800 miljoen woorden en de Engelse Wikipedia met 2500 miljoen woorden.

Architectuur[bewerken | brontekst bewerken]

BERT is in de kern een transformer-taalmodel met een variabel aantal encoder-lagen en self-attention heads. De architectuur is vrijwel identiek aan de oorspronkelijke transformator implementatie in Vaswani et al. (2017).

BERT werd voorgetraind op twee taken: taalmodellering (15% van de tokens werden gemaskeerd en BERT werd getraind om deze te voorspellen vanuit de context) en next sentence prediction (BERT werd getraind om te voorspellen of een gekozen volgende zin waarschijnlijk was of niet gezien de eerste zin). Als resultaat van het trainingsproces leert BERT contextuele inbeddingen voor woorden. Na pre-training, die rekenkundig intensief is, kan BERT met minder middelen worden verbeterd op kleinere datasets om de prestaties op specifieke taken te optimaliseren.

Prestaties[bewerken | brontekst bewerken]

Toen BERT werd gepubliceerd, behaalde het topprestaties bij het uitvoeren van een aantal taken voor het begrijpen van natuurlijke taal:

GLUE (General Language Understanding Evaluation) taakset (bestaande uit 9 taken)

SQuAD (Stanford Question Answering Dataset) v1.1 en v2.0.

SWAG (Situations With Adversarial Generations)

Sentimentanalyse: op BERT gebaseerde sentimentklassificeerders behaalden opmerkelijke prestaties in verschillende talen.

Analyse[bewerken | brontekst bewerken]

De redenen achter de topprestaties van BERT bij het uitvoeren van deze taken voor het begrijpen van natuurlijke taal zijn nog niet erg duidelijk. Het huidige onderzoek heeft zich gericht op het onderzoeken van de relatie achter de output van BERT als resultaat van zorgvuldig gekozen input sequenties, analyse van interne vector representaties door middel van probing classifiers, en de relaties vertegenwoordigd door attention weights.

Geschiedenis[bewerken | brontekst bewerken]

BERT vindt zijn oorsprong in het pre-trainen van contextuele representaties, waaronder semi-supervised sequence learning, generative pre-training, ELMo, en ULMFit. In tegenstelling tot eerdere modellen is BERT een diep bidirectionele, niet gecontroleerd taalrepresentatie, voorgetraind met alleen een gewoon tekstcorpus. Context vrije modellen zoals word2vec of GloVe genereren een enkele woordinbedding voor elk woord in de woordenschat, terwijl BERT rekening houdt met de context bij elk gebruik van een bepaald woord. Bijvoorbeeld, terwijl de vector voor "hardlopen" dezelfde word2vec vector representatie zal hebben voor gebruik in de beiden zinnen "Hij runt een bedrijf" en "Hij loopt een marathon", zal BERT een gecontextualiseerde inbedding leveren die verschillend zal zijn per zin.

Op 25 oktober 2019 kondigde Google Search aan dat ze begonnen waren met het toepassen van BERT-modellen voor Engelstalige zoekopdrachten binnen de VS. Op 9 december 2019 werd gemeld dat BERT door Google Search was overgenomen om te beschikken over meer dan 70 talen. In oktober 2020 werd bijna elke Engelstalige zoekopdracht verwerkt door BERT.

Erkenning[bewerken | brontekst bewerken]

Het onderzoeksartikel waarin BERT werd beschreven, won de Best Long Paper Award tijdens de 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL).

Referenties[bewerken | brontekst bewerken]

Dit artikel of een eerdere versie ervan is een (gedeeltelijke) vertaling van het artikel BERT (language model) op de Engelstalige Wikipedia, dat onder de licentie Creative Commons Naamsvermelding/Gelijk delen valt. Zie de bewerkingsgeschiedenis aldaar.