Spraaksynthese

Regelmatig verzorgen gastbloggers een bijdrage op de blog ‘Onderwijs in de 21e eeuw’. Deze keer een bijdrage van Jet Broeken. Jet is ontwikkelaar bij ITpreneurs, een bedrijf dat zich bezig houdt met de ontwikkeling van effectieve, multimediale leerconcepten.

Spraaksynthese
Spraaksynthese kan een goed hulpmiddel zijn in het onderwijs. Denk bijvoorbeeld aan een voorleesfunctie bij digitaal leermateriaal voor leerlingen met dyslexie, of als uitspraakhulp bij (Nederlandse) taallessen. Spraaksynthese kan bijdragen aan zelfstandig leren. Leerlingen kunnen zich bijvoorbeeld via internet verder verdiepen in een onderwerp. Degenen die moeite hebben met lezen kunnen de verschillende websites laten oplezen, zodat ze de content toch zelfstandig tot zich kunnen nemen. Het onderwijs is er klaar voor. Maar is de spraaktechnologie dat ook?

Verschillende soorten
Er zijn verschillende soorten spraaksynthese:

Allofoonsynthese synthetiseert spraak door de verschillende akoestische eigenschappen van spraakklanken vast te leggen.  Een woord als  ‘kom’ wordt gesynthetiseerd door de akoestische eigenschappen van ‘k’ ‘o’ en ‘m’ samen te voegen. Het is moeilijk om met deze vorm van synthese een natuurlijk resultaat te bereiken.  De uitspraak van een klank wordt namelijk niet alleen bepaald door de klank zelf, maar ook door de klanken die eraan voorafgaan en erop volgen. Bij de eerste klank ‘k’ leidt dit meteen tot problemen. Wat is de goede ‘k’? De ‘k’ van ‘kom’ is een andere dan de ‘k’ van ‘kat’. Spreek beide woorden maar eens uit en let op de stand van je mond. Bij het realiseren van de ‘k’ beweeg je je spraakorgaan al in de richting van de volgende uit te spreken klank (in dit geval de ‘o’ of de ‘a’). Dit beïnvloedt de uitspraak van de ‘k’. Allofoonsynthese houdt geen rekening met deze klankomgeving.

Bij difoonsynthese wordt gebruik gemaakt van voor opgenomen difonen. Difonen zijn overgangen tussen twee klanken. Het Nederlands kent grofweg 50 klanken en dus ongeveer 2500 difonen (50×50).  Deze vorm van synthese is natuurlijker dan de allofoonsynthese, omdat hierbij wel rekening wordt gehouden met de klankomgeving (een woord als ‘kom’ wordt opgebouwd uit de difonen ‘woordbegin-k- + ko+om+m-woordeinde). Toch leidt ook deze vorm vaak niet tot een heel natuurlijk resultaat. Het houdt namelijk geen rekening met klemtoon en ritme. Dit moet handmatig worden toegevoegd, waardoor het doel, automatische spraak, gemist wordt.

En tot slot de meest gebruikte vorm van synthese: unit selection synthese. Er wordt gebruik gemaakt een grote database met voor opgenomen spraak. Wanneer een spraakcomputer een tekst opleest, zoekt hij naar de grootst mogelijke matchende eenheden in zijn database.
Idealiter zijn dit hele zinnen, maar dit kunnen ook zinsdelen, woorden, syllaben of zelfs fonemen (klanken) zijn. Het resultaat is een vrij aardige benadering van natuurlijke spraak. Luister bijvoorbeeld naar de demo’s van het spraaksynthese programma Real Speak
Het klinkt vrij aardig, maar echt natuurlijk klinkt het niet.
Doordat er losse woorden uit de database worden opgehaald, gaat de correcte zinsmelodie verloren. Als ik al word afgeleid door de vreemde intonatie, hoe zit dat dan met dyslectische leerlingen of tweedetaalleerders?

Zoals de spraaktechnologie er nu voor staat, is het naar mijn idee het best bruikbaar als hulpmiddel in het taalonderwijs om de uitspraak van losse woorden te beluisteren. Wanneer het gaat om het laten uitspreken van hele zinnen of teksten, moet de techniek nog wat verder gevorderd zijn.


Advertenties
Post a comment or leave a trackback: Trackback URL.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

w

Verbinden met %s

%d bloggers liken dit: