Naar inhoud springen

Generatieve kunstmatige intelligentie

Uit Wikipedia, de vrije encyclopedie
A detailed oil painting of figures in a futuristic opera scene
Théâtre D'opéra Spatial, een afbeelding gegenereerd met Midjourney

Generatieve kunstmatige intelligentie (generatieve AI, GenAI, of GAI) is kunstmatige intelligentie die in staat is tekst, afbeeldingen, video's, computercode of andere gegevens te genereren met behulp van generatieve modellen, vaak als reactie op ingetype opdrachten. Generatieve AI-modellen leren de patronen en de structuur van hun trainingsgegevens en genereren vervolgens nieuwe gegevens met vergelijkbare kenmerken.

Verbeteringen in op transformatoren gebaseerde diepe neurale netwerken, met name grote taalmodellen (LLM's), zorgden begin jaren 2020 voor een bloei van generatieve AI-systemen. Hieronder vallen chatbots zoals ChatGPT, Copilot, Gemini en LLaMA, systemen voor het genereren van afbeeldingen zoals Stable Diffusion, Midjourney en DALL-E, en AI-generatoren voor het genereren van video zoals Sora. Bedrijven als OpenAI, Anthropic, Microsoft, Google en Baidu, maar ook talloze kleinere bedrijven, hebben generatieve AI-modellen ontwikkeld.

Generatieve AI kent toepassingen in een breed scala aan sectoren, waaronder softwareontwikkeling, gezondheidszorg, financiën, entertainment, klantenservice, verkoop en marketing, kunst, schrijven, mode, en productontwerp. Er zijn echter zorgen geuit over het mogelijke misbruik van generatieve AI, zoals computercriminaliteit, het gebruik van nepnieuws of deepfakes om mensen te misleiden of te manipuleren, en de massale vervanging van menselijke banen.

Een generatief AI-systeem wordt opgebouwd door machinaal leren toe te passen op een dataset. De mogelijkheden van een generatief AI-systeem zijn afhankelijk van het type van de gebruikte dataset.

Generatieve AI kan zowel unimodaal als multimodaal zijn; unimodale systemen accepteren slechts één type invoer, terwijl multimodale systemen meer dan één type invoer kunnen accepteren. Eén versie van GPT-4 van OpenAI accepteert bijvoorbeeld zowel tekst- als beeldinvoer.

Generatieve AI-systemen die zijn getraind op woorden of woordtokens zijn onder andere GPT-3, GPT-4, GPT-4o, LaMDA, LLaMA, BLOOM, Gemini en andere (zie Lijst met grote taalmodellen). Ze zijn in staat tot natuurlijke taalverwerking, computervertaling en natuurlijke taalgeneratie en kunnen worden gebruikt als basismodellen voor andere taken. Bijvoorbeeld BookCorpus, Wikipedia en andere kunnen dienen als datasets.

Naast op gewone tekst kunnen grote taalmodellen worden getraind op tekst in programmacode in bepaalde programmeertalen, waardoor ze broncode voor nieuwe computerprogramma's kunnen genereren. Een voorbeelden hiervan is OpenAI Codex.

Stable Diffusion, met als opdracht: een foto van een astronaut die paardrijdt.

Het produceren van hoogwaardige visuele kunst is een belangrijke toepassing van generatieve AI. Generatieve AI-systemen die zijn getraind op afbeeldingen met tekstbijschriften zijn onder andere Imagen, DALL-E, Midjourney, Adobe Firefly, Stable Diffusion en andere (zie generatieve kunst). Onder andere LAION-5B is een mogelijke dataset.

Generatieve AI kan ook uitgebreid worden getraind op audioclips om natuurlijk klinkende spraaksynthese en tekst-naar-spraak te produceren, zoals geïllustreerd door de contextbewuste synthesetools van ElevenLabs of Voicebox van Meta Platforms.

Door AI gegenereerde muziek van de Riffusion Inference Server, door de opdracht bossanova met elektrische gitaar

Generatieve AI-systemen zoals MusicLM en MusicGen kunnen ook worden getraind op de audiogolfvormen van opgenomen muziek, samen met tekstuele aantekeningen, om nieuwe muzikale samples te genereren op basis van tekstbeschrijvingen, zoals "een kalmerende vioolmelodie ondersteund door een vervormde gitaarriff".

Er zijn audiodeepfakes van songteksten gemaakt, zoals bij het nummer Savages, waarbij AI de zang van rapper Jay-Z nabootste. De instrumentale muziek en songteksten van muzikanten zijn auteursrechtelijk beschermd, maar hun stemmen zijn nog niet beschermd tegen regeneratieve AI, waardoor een debat is ontstaan over de vraag of artiesten auteursrechten moeten krijgen voor audiodeepfakes.

Er zijn veel AI-muziekgeneratoren gemaakt die gegenereerd kunnen worden met behulp van een tekstzin, genre-keuzes en geloopte bibliotheken met maten en riffs.

Video gegenereerd door Sora met opdracht Borneo-wildlife op de Kinabatangan-rivier

Generatieve AI die is getraind op geannoteerde video, kan coherente, gedetailleerde en fotorealistische videoclips genereren. Voorbeelden hiervan zijn Sora van OpenAI, Gen-1 en Gen-2 van Runway, en Make-A-Video van Meta Platforms.

3D-modellering

[bewerken | brontekst bewerken]

Kunstmatige intelligentie met behulp van computer-aided design (CAD) kan tekst-naar-3D, beeld-naar-3D en video-naar-3D gebruiken om 3D-modellering te automatiseren. Op AI gebaseerde CAD-bibliotheken zouden ook ontwikkeld kunnen worden met behulp van gekoppelde open data van schema's en diagrammen. AI CAD-assistenten worden gebruikt als hulpmiddelen om een workflow te stroomlijnen.