Spraaksynthese

Spraaksynthese is het kunstmatig produceren van menselijke spraak. Ook wel: Text-to-Speech (TTS), Computerstem, Tekst-naar-Spraak, kunstmatige spraak. Het is onder meer een onderzoeksgebied binnen de kunstmatige intelligentie. Met behulp van spraaksynthese-software wordt geschreven (orthografische of fonetische) tekst omgezet in gesproken tekst. Het doel van spraaksynthese-software is om menselijke spraak zo goed mogelijk na te bootsen.

Methoden

De meest succesvolle methode van spraaksynthese is de Unit Selection Method. Deze methode wordt in de modernste spraaksynthese-software toegepast. De basis hiervoor is natuurlijke menselijke spraak. Een grote hoeveelheid fragmenten van menselijke spraak worden opgenomen, opgeslagen en op een intelligentie manier aan elkaar geplakt tot de gewenste uiting. Ook voor het Nederlands bestaat tegenwoordig zeer hoogwaardige software. De toepassing van de unit selection method en de toenemende capaciteit van computers brengt tegenwoordig de kwaliteit van de spraaksynthese steeds dichter bij de natuurlijke menselijke stem. Hiermee wordt spraaksynthese werkelijk bruikbaar in geavanceerde omgevingen zoals callcenters. Self-service toepassingen of interactieve, spraakgestuurde toepassingen Interactive Voice Response (IVR) systemen worden veelal uitgerust met spraaksynthese. Dynamisch gegenereerde content zoals file-informatie en beurskoersen kan zo automatisch voorgelezen worden. Andere synthesemethodes naast unit selection zijn: kopiesynthese, spraakassemblage, difoonsynthese (te beluisteren op spraaksynthese.nl), allofoonsynthese en concatenatie.

Geschiedenis

Moderne kunstmatige spraak ontstond pas met de opkomst van de micro-elektronica. Het onderzoeksveld bestond echter al eeuwen voor de uitvinding van elektronische signaalverwerking.

Vroeger probeerde men op een mechanische manier, door onder andere de toepassing van blaasbalgen, zogenaamde ‘sprekende hoofden’ te produceren. Vroege onderzoekers in dit veld waren Paus Silvester II (d. 1003), Albertus Magnus (1198-1280), en Roger Bacon (1214-1294). In 1779, bouwde Christian Kratzenstein, een Deense wetenschapper aan de Russische Academie van Wetenschappen, modellen van het menselijke spraakkanaal die vijf klinkers konden produceren. Vervolgens ontwierp de Oostenrijkse Wolfgang von Kempelen de op blaasbalgen gebaseerde "akoestisch-mechanische spraakmachine", beschreven in een paper uit 1791. Bij deze machine zorgden modellen van de tong en lippen ervoor dat zowel klinkers als medeklinkers uitgesproken konden worden. In 1837 produceerde Charles Wheatstone de "speaking machine", gebaseerd op Von Kempelens ontwerp.

In jaren ’30 van de vorige eeuw ontwikkelde Bell Labs de Vocoder, een naar men zei duidelijk verstaanbare spraaksynthesemachine, met toetsen bediend. Homer Dudley werkte deze machine verder uit tot het Voder-systeem. Deze werd op de wereldtentoonstelling van 1939 in New York gepresenteerd. Hiervan stamt ook het eerst bekende geluidsfragment van gesynthetiseerde spraak. Dit fragment is te beluisteren op spraaksynthese.nl/geschiedenis De eerste computergestuurde spraaksynthesizers stammen uit eind jaren ’50. Deze klonken zeer robotachtig en waren nauwelijks verstaanbaar. Deze systemen zijn echter gestaag doorontwikkeld en bij hedendaagse systemen is het soms onmogelijk gesynthetiseerde spraak en echte menselijke spraak van elkaar te onderscheiden.

Het eerste complete TTS-systeem werd in 1968 voltooid. De eerste vorm van digitale spraaksynthese was formantsynthese. Bij deze aanpak werden de formanten die een klinker omspannen (doorgaans 2 of 3) gegenereerd en aangevuld met een grondtoon (de toonhoogte van de spreker). Dit leidt echter tot de typische robotklank van een vocoder. Sinds de jaren '80 is spraaksynthesesoftware gangbaar geworden in operating systems.

noicon

Door op de afspeelknop te klikken kunt u dit artikel beluisteren. Na het opnemen kan het artikel gewijzigd zijn, waardoor de tekst van de opname wellicht verouderd is. Zie verder info over deze opname of download de opname direct. (Meer info over gesproken Wikipedia)

Bronnen