Isiklikud vahendid
Oled siin: Algus EKT projektid Kõne- ja multimodaalsed korpused

Kõne- ja multi-modaalsed korpused

Projektiinfo:

Asutus: TTÜ Küberneetika Instituut

Projektijuht: Einar Meister, einar@ioc.ee

Täitjad: Lya Meister, Rainer Metsvahi, Martin Külvik

 

Projekti vajadus ja taust

Kõnetuvastuses kasutatakse laialdaselt statistilisi mudeleid, mille treenimiseks on vajalikud suuremahulised korpused – mida suurem ja mitmekesisem on treeningmaterjal, seda paremad on tuvastustulemused. Kõnelejast sõltumatu tuvastussüsteemi treenimiseks on vajalik kasutada võimalikult paljude inimeste kõnesalvestusi. Seetõttu on vajalik jätkata olemasolevate kõnekorpuste laiendamist ja koguda uusi eri kõnestiile, sõnavara ja kõnelejarühmi (näiteks lapsi ja noorukeid vanuses 8-15 aastat, võõrkeelse aktsendiga kõnelejaid) kaasavaid kõnekorpusi. Paljud võimalikud kõnetuvastuse rakendused on valdkonnaspetsiifilised ja nende sõnavara on suhteliselt hästi piiritletav, nt pildikirjeldused radioloogias, infopäringud jpm. Selliste rakenduste loomise eelduseks on vajalik valdkonnaspetsiifiliste kõnekorpuste kogumine.


Projekti eesmärgid


1. Olemasolevate kõnekorpuste (loengukõne korpus ja aktsendikorpus) laiendamine ja märgendamine

2. Uute korpuste (raadiointrvjuud, laste ja noorte kõne, nimega üksused, valdkonnaspetsiifilise sõnavaraga kõne, multimodaalne kõne, viipekeel) kavandamine, salvestus ja töötlus

3. Korpuste salvestusteks, töötluseks ja haldamiseks vajaliku infrastruktuuri arendus

Korpuste kavandamisel ja kogumisel lähtutakse rahvusvahelisest praktikast, olemasolevatest prototüüpidest ja standarditest.

Korpused tehakse kättesaadavaks Eesti keeleressursside keskuse kaudu.


Projekti senised tulemused 

2011:
  • Loengukõne korpus: koguti 25 tundi konverentsiettekandeid (30 keelejuhti), käsitsi märgendati 20 tundi salvestusi
  • Aktsendikorpus: salvestati 5 eri keeletaustaga keelejuhti, automaatselt segmenteeriti 150 keelejuhi salvestused, käsitsi korrigeeriti ühe keelejuhi kõnematerjal (140 lauset)
  • Raadiointervjuude korpus: koguti ja märgendati käsitsi 20 tundi salvestusi
  • Laste ja noorte kõnekorpus: koostati tekstikorpus (sisaldab spontaanset kõnet esile kutsuvaid küsimusi ja pilte ning etteantud tekste (PIN-koodid, telefoninumbrid, numbrijadad, kellaajad, kuupäevad, koha- ja isikunimed, organisatsioonide nimetused, IT-valdkonna terminid, foneetiliselt rikkad laused)); komplekteerit mobiilne salvestuskomplekt (laua- ja peamikrofon, mikrofonivõimendi/AD-muundur M-Audio MobilePre, sülearvuti eraldi monitoriga, SpeechRecorder salvestusprogramm); tehti proovisalvestusi
  • Eriliigilised kõnekorpused: koostati fookusrõhu akustiliste tunnuste uurimiseks sobiv tekstikorpus (iga uuritav sõna on kolmes erinevas rõhupositsioonis - lauserõhutu, lauserõhuline, kontrastiivne rõhk) ja see
    salvestati 11 keelejuhiga; rõhupositsioonis olevad sõnad on segmenteeritud häälikutasandil
  • Multimodaalsed korpused: (1) kõneproduktsiooni andmebaasi salvestamiseks VCV ja CVCV struktuure sisaldav korpus, mis salvestati kahe mõõtesüsteemiga: EMA (elektromageetiline artikulograaf) ja EPG (elektropalatograaf); (2) audiovisuaalse kõnesünteesi projekti jaoks salvestati eesti põhiviseemide korpus nii isoleeritud häälduses kui sidusas kõnes

 

2012:

  • Loengukõne korpus: märgendati 20 tundi salvestusi
  • Raadiointervjuude korpus: koguti ja märgendati käsitsi 20 tundi salvestusi
  • Aktsendikorpus: salvestati 19 läti, 5 rootsi ja 1 saksa keeletaustaga keelejuhti, käsitsi märgendati 50 eri keeletaustaga (soome, vene, saksa, taani, poola) keelejuhi spontaanset kõnet sisaldavad laused; segmenteeriti (hääliku, silbi ja sõna tasandil) 12 soome keelejuhi vältevastandusi sisaldavad sõnad
  • Laste ja noorte kõnekorpus: salvestati 90 keelejuhti vanuses 9-19
  • Multimodaalsed korpused: EPG-süsteemiga (+larüngograaf) salvestati VCV ja CVCV korpus; VCV-korpus on segmenteeritud ja viidud vastavusse Emu kõne andmebaasi formaadiga, korpus on kasutatav Emu ja Emu/R keskkondades
  • Seniseid tulemusid on esitatud artiklites:

Meister, Lya; Meister, Einar (2012). Aktsendikorpus ja võõrkeele aktsendi uurimine. Keel ja Kirjandus, 55(8-9), 696 - 714.

Meister, Einar; Meister, Lya; Metsvahi, Rainer (2012). New speech corpora at IoC. In: XXVII Fonetiikan päivät 2012 - Phonetics Symposium 2012 : 17-18 February 2012, Tallinn, Estonia, Proceedings: (Ed.) Meister, Einar. Tallinn: TUT Press, 2012, 30 - 33.

Meister, Einar; Meister, Lya (2012). Multimodal corpus of speech production: work in progress. In: Human Language Technologies. The Baltic Perspective : Proceedings of the Fifth International Conference Baltic HLT 2012: (Toim.) Tavast, Arvi; Muischnek, Kadri; Koit, Mare. Amsterdam: IOS Press, 2012, (Frontiers in Artificial Intelligence and Applications; 247), 146 - 153.

Tegevused dokumentidega