Groot taalmodel

Een groot taalmodel (Engels: Large Language Model (LLM)) is een taalmodel dat zich onderscheidt doordat het voor algemene doeleinden tekst kan generen, zogenaamde generatieve kunstmatige intelligentie, Hierdoor wijkt het af van gewone taalmodellen die alleen voor een specifiek doel inzetbaar zijn. Dit vermogen wordt bereikt doordat het door middel van diep leren statistische relaties heeft gelegd tussen woorden door uitgebreid op bijvoorbeeld tekstdocumenten te trainen. Hierdoor kan een gebruiker een chatgesprek voeren met een groot taalmodel op een manier waarop het bijna lijkt alsof het gesprek met een echt persoon gevoerd wordt. Ook kan zo'n taalmodel teksten generen, bijvoorbeeld voor een boek, brieven, officiële documenten, computervertalingen, samenvattingen en en zelfs programmeercode.

Grote trainingssets kunnen eigenlijk alleen gemaakt worden door web scraping. Hoe groter de set trainingsdata is, hoe groter de set met aangeleerde parameters zal worden met als gevolg een betere werking.

De werking wordt door de ontwikkelaars enigszins geheim gehouden maar er wordt aangenomen dat deze kennis hebben van de syntaxis en semantiek van de menselijke taal. Daarbij wordt gewoonlijk gebruik gemaakt van twee componenten, een met kennis van de taal en een met informatie. De informatie die opgeslagen is, is bij een groot taalmodel zeer groot en bevat daardoor veel veelzijdige informatie. Ook kan ervoor gekozen worden om alleen een dataset te gebruiken met informatie over een specifiek onderwerp of met de kennis binnen een bepaald bedrijf. Zo'n keuze heeft minder zware hardware nodig, minder rekenkracht en verbruikt minder energie.

Bij het genereren van een antwoord, reactie of tekst wordt steeds een berekening gemaakt van wat het meest waarschijnlijke volgende woord zou moeten zijn. Dit wordt bepaald aan de hand van de voorgaande woorden in de zin, de voorgaande zinnen, de input (bijvoorbeeld een vraag) van de gebruiker en de context. Het model komt dan met het volgende meest waarschijnlijke woord en begint dan aan de berekening van het daaropvolgende woord. Op die manier ontstaat een verhaal woord voor woord en zin voor zin.^[1]

Het model werkt met context maar heeft zelf geen besef van enige betekenis. Dit leidt soms tot een verschijnsel genaamd hallucinatie waarbij het model een tekst genereert die zichzelf tegenspreekt, zichzelf herhaalt of gewoon onzin bevat. De mate van hallucinatie kan ingesteld worden maar wanneer hallucinatie minder of zelfs niet wordt toegestaan dan zal het model vaker vastlopen, het antwoord afbreken of zelfs helemaal geen antwoord geven.

Daarnaast is de output afhankelijk van de input waarmee het systeem getraind is. Wanneer het systeem gevoed wordt met foutieve informatie of nepnieuws dan zal het ook dergelijke informatie genereren. Tegelijkertijd moeten deze modellen uitgebreid door mensen bijgetraind worden om onnauwkeurigheden, vooroordelen, nepnieuws en kwetsende en ongepaste output te voorkomen. De output is immers afhankelijk van de trainingsdata en wanneer trainingsteksten van internet gehaald worden dan kunnen deze allerlei foutieve informatie bevatten.

Voorbeelden[bewerken | brontekst bewerken]

Baidu: ERNIE-Code: een meertalig coderingsmodel met 560m parameters
BLOOM: BigScience Large Open-science Multilingual Language Model met 176 miljard parameters.
Google Research & DeepMind
- BERT (taalmodel): Bidirectional Encoder Representations from Transformers
- DeepMind ontwikkelde verschillende taalmodellen zoals Chinchilla AI, en grafische tools waaronder Flamingo (VLM)
- Generalist Language Model (GLaM) 1 biljoen parameter model
- LaMDA (taalmodel) voor dialoogtoepassingen, een 137 miljard parametermodel
- Pathways Language Model (PaLM) 540 miljard parameter model
- RT-1: een model voor het bedienen van robots
- Bard: chatbot
- Gemini (taalmodel): familie van multimodale grote taalmodellen
Microsoft/NVIDIA
- Megatron-Turing NLG, 530 miljard parametermodel
Meta
- LLaMA
- Llama 2
Amazon
- AlexaTM
OpenAI:
- GPT-2: Generative pre-trained transformer 2, model met 1,5 miljard parameters
- GPT-3: Generative Pre-trained Transformer 3, model met 175 miljard parameters
- GPT-4: Generative Pre-trained Transformer 4, model met 1 biljoen parameters^[2]
- ChatGPT, een taalmodel in chatvorm, gelanceerd eind november 2022
Andere:
- GPT-NeoX-20B: een opensource autoregressief taalmodel met 20 miljard parameters
- OPT-175B van Meta AI: een ander taalmodel met 175 miljard parameters
- VALL-E tekst-naar-spraaksynthese.

In 2023 slaagde ChatGPT voor de turingtest. Dit is een test om te bepalen of een chatbot dusdanig menselijk lijkt dat deze voor een gebruiker niet meer van een menselijke gesprekspartner te onderscheiden is.^[3]

Bronnen, noten en/of referenties

↑ Introduction to large language models
↑ (en) Reed Albergotti, The secret history of Elon Musk, Sam Altman, and OpenAI. Semafor (24 maart 2023). Gearchiveerd op 27 maart 2023. Geraadpleegd op 27 maart 2023. "The latest language model, GPT-4, has 1 trillion parameters."
↑ Nature.com - ChatGPT broke the Turing test — the race is on for new ways to assess AI - 25-07-2023

Dit artikel of een eerdere versie ervan is een (gedeeltelijke) vertaling van het artikel Large language model op de Engelstalige Wikipedia, dat onder de licentie Creative Commons Naamsvermelding/Gelijk delen valt. Zie de bewerkingsgeschiedenis aldaar.

[1] Introduction to large language models

[2] (en) Reed Albergotti, The secret history of Elon Musk, Sam Altman, and OpenAI. Semafor (24 maart 2023). Gearchiveerd op 27 maart 2023. Geraadpleegd op 27 maart 2023. "The latest language model, GPT-4, has 1 trillion parameters."

[3] Nature.com - ChatGPT broke the Turing test — the race is on for new ways to assess AI - 25-07-2023

[1]

[2]

[3]