Generatieve kunstmatige intelligentie
Generatieve kunstmatige intelligentie (generatieve AI, GenAI, of GAI) is kunstmatige intelligentie die in staat is tekst, afbeeldingen, video's, computercode of andere gegevens te genereren met behulp van generatieve modellen, vaak als reactie op ingetype opdrachten. Generatieve AI-modellen leren de patronen en de structuur van hun trainingsgegevens en genereren vervolgens nieuwe gegevens met vergelijkbare kenmerken.
Verbeteringen in op transformatoren gebaseerde diepe neurale netwerken, met name grote taalmodellen (LLM's), zorgden begin jaren 2020 voor een bloei van generatieve AI-systemen. Hieronder vallen chatbots zoals ChatGPT, Copilot, Gemini en LLaMA, systemen voor het genereren van afbeeldingen zoals Stable Diffusion, Midjourney en DALL-E, en AI-generatoren voor het genereren van video zoals Sora. Bedrijven als OpenAI, Anthropic, Microsoft, Google en Baidu, maar ook talloze kleinere bedrijven, hebben generatieve AI-modellen ontwikkeld.
Generatieve AI kent toepassingen in een breed scala aan sectoren, waaronder softwareontwikkeling, gezondheidszorg, financiën, entertainment, klantenservice, verkoop en marketing, kunst, schrijven, mode, en productontwerp. Er zijn echter zorgen geuit over het mogelijke misbruik van generatieve AI, zoals computercriminaliteit, het gebruik van nepnieuws of deepfakes om mensen te misleiden of te manipuleren, en de massale vervanging van menselijke banen.
Modaliteiten
[bewerken | brontekst bewerken]Een generatief AI-systeem wordt opgebouwd door machinaal leren toe te passen op een dataset. De mogelijkheden van een generatief AI-systeem zijn afhankelijk van het type van de gebruikte dataset.
Generatieve AI kan zowel unimodaal als multimodaal zijn; unimodale systemen accepteren slechts één type invoer, terwijl multimodale systemen meer dan één type invoer kunnen accepteren. Eén versie van GPT-4 van OpenAI accepteert bijvoorbeeld zowel tekst- als beeldinvoer.
Tekst
[bewerken | brontekst bewerken]Generatieve AI-systemen die zijn getraind op woorden of woordtokens zijn onder andere GPT-3, GPT-4, GPT-4o, LaMDA, LLaMA, BLOOM, Gemini en andere (zie Lijst met grote taalmodellen). Ze zijn in staat tot natuurlijke taalverwerking, computervertaling en natuurlijke taalgeneratie en kunnen worden gebruikt als basismodellen voor andere taken. Bijvoorbeeld BookCorpus, Wikipedia en andere kunnen dienen als datasets.
Code
[bewerken | brontekst bewerken]Naast op gewone tekst kunnen grote taalmodellen worden getraind op tekst in programmacode in bepaalde programmeertalen, waardoor ze broncode voor nieuwe computerprogramma's kunnen genereren. Een voorbeelden hiervan is OpenAI Codex.
Afbeeldingen
[bewerken | brontekst bewerken]Het produceren van hoogwaardige visuele kunst is een belangrijke toepassing van generatieve AI. Generatieve AI-systemen die zijn getraind op afbeeldingen met tekstbijschriften zijn onder andere Imagen, DALL-E, Midjourney, Adobe Firefly, Stable Diffusion en andere (zie generatieve kunst). Onder andere LAION-5B is een mogelijke dataset.
Geluid
[bewerken | brontekst bewerken]Generatieve AI kan ook uitgebreid worden getraind op audioclips om natuurlijk klinkende spraaksynthese en tekst-naar-spraak te produceren, zoals geïllustreerd door de contextbewuste synthesetools van ElevenLabs of Voicebox van Meta Platforms.
Generatieve AI-systemen zoals MusicLM en MusicGen kunnen ook worden getraind op de audiogolfvormen van opgenomen muziek, samen met tekstuele aantekeningen, om nieuwe muzikale samples te genereren op basis van tekstbeschrijvingen, zoals "een kalmerende vioolmelodie ondersteund door een vervormde gitaarriff".
Muziek
[bewerken | brontekst bewerken]Er zijn audiodeepfakes van songteksten gemaakt, zoals bij het nummer Savages, waarbij AI de zang van rapper Jay-Z nabootste. De instrumentale muziek en songteksten van muzikanten zijn auteursrechtelijk beschermd, maar hun stemmen zijn nog niet beschermd tegen regeneratieve AI, waardoor een debat is ontstaan over de vraag of artiesten auteursrechten moeten krijgen voor audiodeepfakes.
Er zijn veel AI-muziekgeneratoren gemaakt die gegenereerd kunnen worden met behulp van een tekstzin, genre-keuzes en geloopte bibliotheken met maten en riffs.
Video
[bewerken | brontekst bewerken]Generatieve AI die is getraind op geannoteerde video, kan coherente, gedetailleerde en fotorealistische videoclips genereren. Voorbeelden hiervan zijn Sora van OpenAI, Gen-1 en Gen-2 van Runway, en Make-A-Video van Meta Platforms.
3D-modellering
[bewerken | brontekst bewerken]Kunstmatige intelligentie met behulp van computer-aided design (CAD) kan tekst-naar-3D, beeld-naar-3D en video-naar-3D gebruiken om 3D-modellering te automatiseren. Op AI gebaseerde CAD-bibliotheken zouden ook ontwikkeld kunnen worden met behulp van gekoppelde open data van schema's en diagrammen. AI CAD-assistenten worden gebruikt als hulpmiddelen om een workflow te stroomlijnen.
- Dit artikel of een eerdere versie ervan is een (gedeeltelijke) vertaling van het artikel Generative artificial intelligence op de Engelstalige Wikipedia, dat onder de licentie Creative Commons Naamsvermelding/Gelijk delen valt. Zie de bewerkingsgeschiedenis aldaar.