Isiklikud vahendid
Oled siin: Algus EKT projektid Audiovisuaalse kõnesünteesi prototüüp

Audiovisuaalse kõnesünteesi prototüüp

Asutus: TTÜ Küberneetika Instituut

Projektijuht: Einar Meister, einar@ioc.ee

Täitjad: Rainer Metsvahi, Lya Meister; koostöö Sasha Fagel'iga (Berliin)

Projekti vajadus ja taust

Inimestevaheline suhtlus on oma olemuselt multimodaalne - lisaks kõnele edastame informatsiooni ka visuaalselt žestide, näoilme, kehakeele, jm kaudu. Kommunikatsioonitehnoloogia üheks arengusuunaks on inimene-masin liideste arendus, milles rakendatakse kõiki inimesele omaseid suhtlusviise, audiovisuaalne kõnesüntees on üks multimodaalse suhtluse rakendusi.

Audiovisuaalse kõnesünteesi puhul lisatakse heliväljundile ka animeeritud inimnäo või pea kujutis. Näo liigutused (näiteks naeratamine, kulmu kortsutamine, silma pilgutamine, noogutamine ja kulmude kergitamine) annavad edasi olulist informatsiooni kõneleja emotsionaalse seisundi kohta ja visuaalne esitus aitab kaasa ka kõnest aru saamisele, eriti kui seda segavad müra või kuulmispuue.

Kõneleval peal on mitmeid rakendusi, näiteks:

- abivahend kuulmishäiretega inimeste jaoks inimkõne mõistmisel ja huultelt lugema õppimisel,

- virtuaalne juhendaja sünnipärase kuulmispuudega inimestele, kes saavad animatsiooni abil õppida häälikute õiget moodustamist, jälgides huulte ning kõnetrakti elundite liikumist kõnelemisel,

- interaktiivne abivahend võõrkeele õppimisel, eriti kui kuvatakse ka kõnetrakti kuju ja keele asendit ning liikumist erinevate häälikute moodustamisel,

- videokonverentsidel info edastajana või erinevates keskkondades uudistelugejana.


Projekti eesmärgid

Projekti eesmärgiks on eestikeelse audiovisuaalse kõnesünteesi prototüübi loomine. See koosneb kahest põhilisest komponendist:

 - visuaalset animatsiooni võimaldavast peamudelist,

 - tekst-kõnesüntesaatorist.

Projekti raames tegeldakse eelkõige visuaalse mudeli loomisega ja see liidestatakse Eesti Keele Instituudis loodud/loodavate tekst-kõnesünteesi prototüüpidega.

 

Projekti senised tulemused 

 

2011:

 

  • Valdkonna taustauuringud ja AV-sünteesi meetodite võrdlus:
    • parameetriline meetod kasutab umbes 800 hulktahukast koosnevat pea sõrestikmudelit, mida juhitakse 50 parameetri abil
    • kujutisepõhine meetod - videokorpusest leitakse sobivad fotorealistlikud näopildid, mille esitamisel vajalikus järjestuses luuakse kõnelemise illusioon
    • korpusepõhine meetod põhineb suurest audiovisuaalsest korpusest leitavate sobivate segmentide ahelsünteesil
  • Eesti viseemide analüüs ja klassifikatsioon
  • Prototüübi valik - MASSY mudel (Sasha Fageli loodud mudel saksa keele AV-sünteesiks)
  • MASSY mudeli liidestamine eestikeelse difoonsüntesatoriga

 

2012:

  • Multimodaalsete kõnesalvestuste segmenteerimine ja töötlus
  • Eesti viseemide sihtväärtuste artikulatoorsete tunnuste kirjeldamine MASSY mudeli juhtparameetrite (huulte laius, huulte ümardatus, suu avatus (lõua asend), keeletipu kõrgus, keelekeha kõrgus, alahuule asend)   kaudu
  • Audiovisuaalsete stiimulite süntees ja tajueksperimendid
  • MPEG4 standardiga ühilduva LUCIA mudeli lähtekoodi uurimine selle kohaldamiseks eestikeelseks AV-sünteesiks
  • Senised tulemused esitatud artiklis:

Meister, Einar; Fagel, Sascha; Metsvahi, Rainer (2012). Towards audiovisual TTS in Estonian. In: Human Language Technologies. The Baltic Perspective : Proceedings of the Fifth International Conference Baltic HLT 2012: (Eds.) Tavast, Arvi; Muischnek, Kadri; Koit, Mare. Amsterdam: IOS Press, 2012, (Frontiers in Artificial Intelligence and Applications; 247), 138 - 145.

Tegevused dokumentidega