Naar inhoud springen

Gemini (taalmodel)

Uit Wikipedia, de vrije encyclopedie
Zie voor het onderdeel chatbot het artikel Gemini (chatbot).
Gemini
Logo
Ontwikkelaar(s) Google DeepMind
Uitgebracht 6 december 2023 (0 jaar geleden)
Licentie(s) propriëtaire licentie
Website Officiële website
Portaal  Portaalicoon   Informatica

Gemini is een familie van multimodale grote taalmodellen (Large Language Model of LLM) ontwikkeld door Google DeepMind. Het dient als opvolger van LaMDA en PaLM 2. Het bestaat uit Gemini Ultra, Gemini Pro en Gemini Nano en werd aangekondigd op 6 december 2023. Het is een concurrent van GPT-4 van OpenAI.

Google kondigde Gemini aan tijdens de Google I/O-keynote op 10 mei 2023. Het werd voorgesteld als een krachtigere opvolger van PaLM 2, dat ook tijdens het evenement werd onthuld, waarbij Google-CEO Sundar Pichai verklaarde dat Gemini zich nog in de vroege ontwikkelingsfase bevond. In tegenstelling tot andere LLM's zou Gemini uniek zijn omdat het niet alleen op een tekstcorpus is getraind en ontworpen is om multimodaal te zijn, wat betekent dat het meerdere soorten gegevens tegelijkertijd kan verwerken, waaronder tekst, afbeeldingen, audio, video en computercode.

Het is ontwikkeld als een samenwerking tussen DeepMind en Google Brain, twee takken van Google die een maand eerder waren samengevoegd tot Google DeepMind. In een interview met Wired prees DeepMind CEO Demis Hassabis de geavanceerde mogelijkheden van Gemini, waarvan hij geloofde dat het algoritme het zou mogelijk maken ChatGPT te overtroeven. Hassabis benadrukte de sterke punten van het AlphaGo-programma van DeepMind, dat in 2016 wereldwijde aandacht kreeg toen het Go-kampioen Lee Sedol versloeg, en zei dat Gemini de kracht van AlphaGo en andere Google-DeepMind-LLM's zou combineren.

In augustus 2023 publiceerde The Information een rapport waarin Googles roadmap voor Gemini werd geschetst. Hieruit bleek dat het bedrijf een lanceringsdatum van eind 2023 nastreefde. Volgens het rapport hoopte Google OpenAI en andere concurrenten te overtreffen door conversatietekstmogelijkheden die in de meeste LLM's aanwezig zijn te combineren met door kunstmatige intelligentie aangedreven beeldgeneratie, waardoor het contextuele beelden kan creëren en kan worden aangepast voor een breder scala aan gebruiksscenario's. Net als bij Bard werd Sergey Brin, medeoprichter van Google, uit zijn semi-pensioen gehaald om te helpen bij de ontwikkeling van Gemini, samen met honderden andere ingenieurs van Google Brain en DeepMind. Omdat Gemini werd getraind in transcripties van YouTube-video's, werden er ook advocaten ingeschakeld om mogelijk auteursrechtelijk beschermd materiaal eruit te filteren.

Na het nieuws over de komende lancering van Gemini zette OpenAI meer haast achter zijn werk aan de integratie van GPT-4 met multimodale functies die vergelijkbaar zijn met die van Gemini. The Information meldde in september dat verschillende bedrijven toegang hadden gekregen tot "een vroege versie" van de LLM, die Google van plan was beschikbaar te stellen aan klanten via de Vertex AI-service van Google Cloud. Google zou Gemini ook voorbereiden om te concurreren met zowel GPT-4 als Microsofts GitHub Copilot.

Op 6 december 2023 maakten Pichai en Hassabis "Gemini 1.0" bekend tijdens een virtuele persconferentie. Het bestond uit drie modellen: Gemini Ultra, ontworpen voor "zeer complexe taken"; Gemini Pro, ontworpen voor "een breed scala aan taken"; en Gemini Nano, ontworpen voor "taken op het apparaat".

Bij de lancering werden Gemini Pro en Nano geïntegreerd in respectievelijk Bard en de Pixel 8 Pro-smartphone, terwijl Gemini Ultra "Bard Advanced" zou aandrijven en begin 2024 beschikbaar zou komen voor softwareontwikkelaars. Andere producten waarin Google Gemini wilde integreren, waren onder meer Search, Ads, Chrome, Duet AI op Google Workspace en AlphaCode 2. Het werd alleen in het Engels beschikbaar gesteld. Het bedrijf verklaarde dat Gemini pas het jaar daarop algemeen beschikbaar zou worden gemaakt vanwege de behoefte aan "uitgebreide veiligheidstesten". Gemini is getraind op en aangedreven door de Tensor Processing Units (TPU's) van Google, en de naam verwijst naar de fusie tussen DeepMind en Google Brain en naar NASA's Project Gemini.

Gemini Ultra zou beter presteren dan GPT-4, Claude 2 van Anthropic, Inflection-2 van Inflection AI, LLaMA 2 van Meta en Grok 1 van xAI op verschillende industriële benchmarks, terwijl Gemini Pro naar verluidt beter presteert dan GPT-3.5. Gemini Ultra was ook het eerste taalmodel dat beter presteerde dan menselijke experts op de Massive Multitask Language Understanding (MMLU)-test met 57 onderwerpen, met een score van 90%.

Gemini Pro wordt op 13 december beschikbaar gesteld aan Google Cloud-klanten op AI Studio en Vertex AI, terwijl Gemini Nano ook beschikbaar zal worden gesteld aan Android-ontwikkelaars. Hassabis onthulde verder dat DeepMind aan het onderzoeken was hoe Gemini "gecombineerd kan worden met robotica om fysiek met de wereld te communiceren". In overeenstemming met de Executive Order 14110, ondertekend door president Joe Biden in oktober, verklaarde Google dat het de testresultaten van Gemini Ultra zou delen met de federale overheid van de Verenigde Staten. Op dezelfde manier is het bedrijf verwikkeld in besprekingen met de regering van het Verenigd Koninkrijk om te voldoen aan de principes die zijn uiteengezet tijdens de AI Safety Summit in Bletchley Park in november.

Technische specificaties

[bewerken | brontekst bewerken]

De drie Gemini-modellen delen dezelfde softwarearchitectuur. Het zijn transformers die alleen voor decoders geschikt zijn, met aanpassingen om efficiënte training op TPU's mogelijk te maken. Ze hebben een contextlengte van 32.768 tokens. Twee versies van Gemini Nano, Nano-1 (1,8 miljard parameters) en Nano-2 (3,25 miljard parameters), zijn afgeleid van grotere Gemini-modellen, ontworpen voor gebruik door edge-apparaten zoals smartphones.

Omdat Gemini multimodaal is, kan elk contextvenster meerdere vormen van invoer bevatten. De verschillende modi kunnen door elkaar heen worden geweven en hoeven niet in een vaste volgorde te worden gepresenteerd, waardoor een multimodaal gesprek mogelijk is. Ingevoerde afbeeldingen kunnen verschillende resoluties hebben, terwijl video wordt ingevoerd als een reeks afbeeldingen. Audio wordt bemonsterd op 16 kHz en vervolgens omgezet in een reeks tokens door het Universal Speech Model. De dataset van Gemini is multimodaal en meertalig, bestaande uit "webdocumenten, boeken en code, en inclusief beeld-, audio- en videogegevens".

De lancering van Gemini werd voorafgegaan door maanden van intense speculatie en verwachting, die MIT Technology Review omschreef als een "piek-AI-hype". In augustus 2023 schreven Dylan Patel en Daniel Nishball van onderzoeksbureau SemiAnalysis een blogpost waarin ze verklaarden dat de release van Gemini "de wereld zou opeten" en GPT-4 zou overtreffen, wat OpenAI-CEO Sam Altman ertoe aanzette het duo belachelijk te maken op X (voorheen Twitter). Zakenmagnaat Elon Musk, mede-oprichter van OpenAI, vroeg zich af: "Zijn de cijfers verkeerd?"

Hugh Langley van Business Insider merkte op dat Gemini een make-or-break-moment zou zijn voor Google en schreef: "Als Gemini het goed doet, zal het Google helpen de perceptie veranderen dat het door Microsoft en OpenAI werd voorbijgestoken. Als het teleurstelt, het zal critici ondersteunen die zeggen dat Google achterop is geraakt."

In reactie op de onthulling in december 2023 voorspelde emeritus-professor Oren Etzioni van de Universiteit van Washington een "wapenwedloop" tussen Google en OpenAI. Professor Alexei Efros van de University of California, Berkeley prees het potentieel van Gemini's multimodale aanpak, terwijl wetenschapper Melanie Mitchell van het Santa Fe Institute Gemini "zeer verfijnd" noemde. Professor Chirag Shah van de Universiteit van Washington was minder onder de indruk en vergeleek de lancering van Gemini met Apples jaarlijkse introductie van een nieuwe iPhone. Op dezelfde manier waarschuwden Percy Liang van Stanford University en Emily Bender van de Universiteit van Washington dat het moeilijk was om benchmarkscores te interpreteren zonder inzicht in de gebruikte trainingsgegevens. Mark Sullivan schreef voor Fast Company en meende dat Google de kans had om het dominante marktaandeel van de iPhone uit te dagen, in de overtuiging dat het onwaarschijnlijk was dat Apple met zijn virtuele assistent Siri de capaciteit zou hebben om functionaliteit te ontwikkelen die vergelijkbaar is met Gemini.