Fõoldal
A projektrõl
A TTS rendszerekrõl
Írjon nekünk!
Discourser
A többi projekt
A fõiskola honlapja

Hangképzés

A hangképzési rendszereket három fõ csoportra oszthatjuk:
  1. Közvetlen generálás
  2. Modellen keresztüli generálás
  3. Artikulációs szintézis
Az elsõ csoport a hullámforma manipulálást takarja, a második csoportba a formánsszintézis és az LPC szintézis tartozik, míg a harmadik csoportot az artikulációs szintézisen alapuló módszerek jelentik.

Közvetlen generálás

Többek között a direkt hullámforma összefûzés tartozik ezen módszerek közé. A módszer a következõképpen mûködik: a fonémát egy vagy több elõre letárolt hangszeletbõl fûzi össze, majd a fonémákat hasonlóképpen szavakká állítja össze a szintetizáló rendszer. Ennek a technikának megvan az az elõnye, hogy egyszerû (!) és nem igényel sok tárolóhelyet. A minõség elfogadható bizonyos alkalmazások esetében (játékok, stb.), amennyiben a hangszeletek illesztése kellõ körültekintéssel történt.

Modellen keresztüli generálás

Ezek a technikák a beszédjelet egy modell segítségével állítják elõ. A két legelterjedtebb technika az LPC (Linear Prediction Coding) és a formánsszintézis.
Az LPC azonnal népszerû lett a digitális számítógépek elterjedésével, mivel ez a technika szinte kínálja magát a számítógépes szimulálásra. A szintetizálás algoritmusai pedig elég egyszerûek ahhoz, hogy integrált áramkörökben is megvalósíthatók legyenek. Az analízis folyamata teljesen automatizálható, és a szintetizált beszéd minõsége meglehetõsen jó. A hátránya az viszont, hogy a zöngés és a zöngétlen hangok közötti elválasztás nem mindig tökéletes, és ez a szintetizált beszéd zöngésségében nyilvánul meg. Bár történtek kísérletek arra vonatkozóan, hogy ezt megszüntessék, ez nem sikerült teljes mértékben. A probléma megoldása azonban nagyon megnövelné a számítási igényt.
A második módszer a formáns szintézis. Ez azon a felismerésen alapul, hogy a beszédjelet az adott fonémára jellemzõ frekvenciasávokkal (formánsfrekvenciákkal) megadhatjuk. A formáns szintézis elõnye az, hogy a formáns paraméterek nagyon jól modellezik a beszédelõállítást és a hangképzést a hangképzõ szervekben. Ezért az ilyen szintetizátorral elõállított beszéd teljesen folyamatos lehet. Hátránya azonban ennek a módszernek, hogy a szintetizátor számára szükséges formánsfrekvenciák és fõképpen a formáns sávszélességek meghatározása igen bonyolult feladat, amely még nem automatizálható. A meghatározás akkor a legnehezebb, ha a formánsfrekvenciák egymáshoz közel vannak. A formánsbecsléshez használják az LPC technológiát, valamint egyéb más módszereket, de az eredmények nem kielégítõek. Jelen pillanatban a legjobb eredményt csak próbálgatással lehet elérni.

Artikulációs szintézis

A hangképzõ szervek akusztikáját más módszerrel is meg lehet közelíteni. Ez a módszer közvetlenül a hanghullámok keletkezését és lecsengését szimulálja a hangképzõ szerveken belül. Az elsõ megvalósítások analóg áramköri elemeket tartalmaztak, ezek azonban nem voltak képesek pontosan modellezni a hang lecsengését a hangképzõ szerveken belül. A megoldást a számítógépek megjelenése és a digitális jelfeldolgozás kialakulása jelentette, így lehetõség nyílt arra, hogy szoftver szimulátorokat hozzanak létre. A szimulátorok a glottális levegõáramot próbálják kiszámítani a szubglottális nyomásból, a hangszalagok feszességébõl és a hangképzõ szervek alakjából. A problémát bonyolítja az, hogy a glottális levegõáram visszahat a hangképzõ szervek alakjára.
A rendszer elõnye, hogy a szintetizált beszéd majdnem tökéletesen megközelíti a természetes beszédet. Hátránya, hogy a modell számításigénye hatalmas, különösen az idõtartományban végzett szimulációé. További probléma a hangképzõ szervek szimulációjához azok alakjáról tényszerû adatok begyûjtése. Ez történhet röntgenfelvételek elemzésével (nagy sugárzásveszély), vagy az artikulációs paraméterek elemzése a beszédjel felhasználásával (igen bonyolult módszer).
 

 
Fõoldal
A projektrõl
TTS rendszerek
Írjon nekünk!
Többi projekt
Fõiskola
Utolsó módosítás : 
Copyright © by Mystery, 1998.