Naar inhoud springen

Spraaksynthese

Beluister (info)
Uit Wikipedia, de vrije encyclopedie
(Doorverwezen vanaf Tekst-naar-spraak)

Spraaksynthese is het kunstmatig produceren van menselijke spraak. Ook wel: text-to-speech (TTS), Computerstem, tekst-naar-spraak, kunstmatige spraak. Het is onder meer een onderzoeksgebied binnen de kunstmatige intelligentie. Met behulp van spraaksynthese-software wordt geschreven (orthografische of fonetische) tekst omgezet in gesproken tekst. Het doel van spraaksynthese-software is om menselijke spraak zo goed mogelijk na te bootsen.

De meest succesvolle methode van spraaksynthese is de Unit Selection Method. Deze methode wordt in de modernste spraaksynthese-software toegepast. De basis hiervoor is natuurlijke menselijke spraak. Een grote hoeveelheid fragmenten van menselijke spraak worden opgenomen, opgeslagen en op een intelligente manier aan elkaar geplakt tot de gewenste uiting. Ook voor het Nederlands bestaat tegenwoordig zeer hoogwaardige software. De toepassing van de unit selection method en de toenemende capaciteit van computers brengt tegenwoordig de kwaliteit van de spraaksynthese steeds dichter bij de natuurlijke menselijke stem. Hiermee wordt spraaksynthese werkelijk bruikbaar in geavanceerde omgevingen zoals callcenters. Selfservicetoepassingen of interactieve, spraakgestuurde toepassingen Interactive Voice Response (IVR) systemen worden veelal uitgerust met spraaksynthese. Dynamisch gegenereerde content zoals file-informatie en beurskoersen kan zo automatisch voorgelezen worden.

Moderne kunstmatige spraak ontstond pas met de opkomst van de micro-elektronica. Het onderzoeksveld bestond echter al eeuwen voor de uitvinding van elektronische signaalverwerking.

Reconstructie van Von Kempelens spraakmachine aan de Universiteit van Saarbrücken

Vroeger probeerde men op een mechanische manier, door onder andere de toepassing van blaasbalgen, zogenaamde ‘sprekende hoofden’ te produceren. Vroege onderzoekers in dit veld waren Paus Silvester II (d. 1003), Albertus Magnus (1198-1280), en Roger Bacon (1214-1294). In 1779, bouwde Christian Kratzenstein, een Deense wetenschapper aan de Russische Academie van Wetenschappen, modellen van het menselijke spraakkanaal die vijf klinkers konden produceren. Vervolgens ontwierp de Oostenrijkse Wolfgang von Kempelen de op blaasbalgen gebaseerde "akoestisch-mechanische spraakmachine", beschreven in een document uit 1791. Bij deze machine zorgden modellen van de tong en lippen ervoor dat zowel klinkers als medeklinkers uitgesproken konden worden. In 1837 produceerde Charles Wheatstone de "speaking machine", gebaseerd op Von Kempelens ontwerp.

In jaren 30 van de twintigste eeuw ontwikkelde Bell Labs de Vocoder, een naar men zei duidelijk verstaanbare spraaksynthesemachine, met toetsen bediend. Homer Dudley werkte deze machine verder uit tot het Voder-systeem. Deze werd op de wereldtentoonstelling van 1939 in New York gepresenteerd. Hiervan stamt ook het eerst bekende geluidsfragment van gesynthetiseerde spraak. Dit fragment is te beluisteren op 120 Years of Electronic Music De eerste computergestuurde spraaksynthesizers stammen uit eind jaren 50. Deze klonken zeer robotachtig en waren nauwelijks verstaanbaar. Deze systemen zijn echter gestaag doorontwikkeld en bij hedendaagse systemen is het soms onmogelijk gesynthetiseerde spraak en echte menselijke spraak van elkaar te onderscheiden.

Het eerste complete TTS-systeem werd in 1968 voltooid. De eerste vorm van digitale spraaksynthese was formantsynthese. Bij deze aanpak werden de formanten die een klinker omspannen (doorgaans 2 of 3) gegenereerd en aangevuld met een grondtoon (de toonhoogte van de spreker). Dit leidt echter tot de typische robotklank van een vocoder. Sinds de jaren 80 is spraaksynthesesoftware gangbaar geworden in besturingssystemen.