Tekst-naar-beeld modellen[bewerken | brontekst bewerken]

Recente vooruitgang in tekst-naar-afbeelding modellen, zoals DALL-E 2 en Imagen, heeft geleid tot het benaderen van de kwaliteit van echte foto's en door mensen getekende kunst, en deze technologieën combineren doorgaans taalmodellen met generatieve beeldmodellen.^[1]

Recente Vooruitgang in Tekst-naar-Afbeelding Modellen[bewerken | brontekst bewerken]

Tekst-naar-afbeelding modellen hebben in 2022 aanzienlijke vooruitgang geboekt, met modellen zoals DALL-E 2, Imagen, Stable Diffusion en Midjourney die de kwaliteit van echte foto's en door mensen getekende kunst benaderden. Deze modellen combineren doorgaans een taalmodel voor het coderen van tekst in een latente representatie en een generatief beeldmodel voor het produceren van afbeeldingen op basis van die representatie.

Een van de eerste tekst-naar-afbeelding modellen die breed publieke aandacht trok, was OpenAI's DALL-E^[2], een transformer-systeem dat in januari 2021 werd aangekondigd. Een opvolger die in staat is om complexere en realistischere afbeeldingen te genereren, DALL-E 2, werd onthuld in april 2022, gevolgd door Stable Diffusion dat in augustus 2022 openbaar werd uitgebracht.

Naast andere tekst-naar-afbeelding modellen kunnen door taalmodel aangedreven tekst-naar-video platforms zoals Runway, Make-A-Video, Imagen Video, Midjourney, en Phenaki video genereren op basis van tekst- en/of tekst/afbeelding prompts.^[3]

Training, Datasets en Ethische Kwesties[bewerken | brontekst bewerken]

Training van tekst-naar-afbeelding modellen vereist grote datasets van tekst-afbeeldingparen, vaak verzameld van het web. De ontwikkeling en het gebruik van deze modellen hebben ook ethische kwesties met zich meegebracht, zoals zorgen over auteurschap, privacy, misbruik en vooringenomenheid. Het aanpakken van deze ethische kwesties is van groot belang om een verantwoorde en respectvolle toepassing van tekst-naar-afbeelding technologieën te waarborgen.^[4]

Referenties[bewerken | brontekst bewerken]

↑ (en) Vincent, James, All these images were generated by Google’s latest text-to-image AI. The Verge (24 mei 2022). Geraadpleegd op 13 oktober 2023.
↑ (en) Coldewey, Devin, OpenAI's DALL-E creates plausible images of literally anything you ask it to. TechCrunch (5 januari 2021). Geraadpleegd op 13 oktober 2023.
↑ (en) Edwards, Benj, Runway teases AI-powered text-to-video editing using written prompts. Ars Technica (9 september 2022). Geraadpleegd op 13 oktober 2023.
↑ Frolov, Stanislav, Hinz, Tobias, Raue, Federico, Hees, Jörn, Dengel, Andreas (1 december 2021). Adversarial text-to-image synthesis: A review. Neural Networks 144: 187–209. ISSN:0893-6080. DOI:10.1016/j.neunet.2021.07.019.

[1] (en) Vincent, James, All these images were generated by Google’s latest text-to-image AI. The Verge (24 mei 2022). Geraadpleegd op 13 oktober 2023.

[2] (en) Coldewey, Devin, OpenAI's DALL-E creates plausible images of literally anything you ask it to. TechCrunch (5 januari 2021). Geraadpleegd op 13 oktober 2023.

[3] (en) Edwards, Benj, Runway teases AI-powered text-to-video editing using written prompts. Ars Technica (9 september 2022). Geraadpleegd op 13 oktober 2023.

[4] Frolov, Stanislav, Hinz, Tobias, Raue, Federico, Hees, Jörn, Dengel, Andreas (1 december 2021). Adversarial text-to-image synthesis: A review. Neural Networks 144: 187–209. ISSN:0893-6080. DOI:10.1016/j.neunet.2021.07.019.

[1]

[2]

[3]

[4]