Naar inhoud springen

Gebruiker:Groen Stefan/Kladblok

Uit Wikipedia, de vrije encyclopedie

Whisper (spraakherkenning)[bewerken | brontekst bewerken]

Whisper is een automatisch Open source spraakherkenningssysteem gemaakt voor spraakherkenning en transcriptie door OpenAI. De software werd voor het eerste openbaar gemaakt in september 2022.[1]

Werking[bewerken | brontekst bewerken]

De werking van Whisper

De Whisper-architectuur volgt een end-to-end benadering en wordt geïmplementeerd als een encoder-decoder Transformer. De invoeraudio wordt in stukken van 30 seconden opgedeeld, omgezet in een log-Mel-spectrogram en vervolgens naar een encoder gestuurd. Een decoder is samen met speciale tokens getraind om de transcriptie van de invoeraudio te voorspellen en verschillende taken uit te voeren, zoals taalidentificatie, tijdsaanduidingen op zinsniveau, meertalige transcriptie en de vertaling van spraak naar het Engels.

Training[bewerken | brontekst bewerken]

Het model achter Whisper is getraind op 680.000 uur[2] aan meertalige spraakgegevens die zijn verzameld via het internet. Door het gebruik van dergelijke grote en diverse datasets is Whisper getraind om verschillen te herkennen tussen achtergrondgeluid en spraak. Door de grote van de dataset herkent Whisper ook accenten en technische taal. Het maakt bovendien mogelijk om transcripties uit te voeren in meerdere talen, evenals vertaling van deze talen naar het Engels


Whisper presteert niet beter dan modellen die gespecialiseerd zijn in het LibriSpeech dataset, hoewel, wanneer getest op verschillende datasets is Whisper robuuster en maakt het 50% dan vergelijkbare modellen[3]

Zie ook[bewerken | brontekst bewerken]

Referenties[bewerken | brontekst bewerken]

  1. (en) Introducing Whisper. openai.com. Geraadpleegd op 13 oktober 2023.
  2. (en) Introducing Whisper. openai.com. Geraadpleegd op 13 oktober 2023.
  3. (en) Introducing Whisper. openai.com. Geraadpleegd op 13 oktober 2023.