Eestikeelse kõnetuvastuse meetodite uurimine ja arendamine
Sissejuhatus
Projekti eesmärgiks on eesti keelele sobivate kõnetuvastuse meetodite uurimine, arendamine ja testimine ning erinevate tuvastussüsteemi prototüüpide loomine.
Projekti olulisemad ülesanded
- uurida, millised on optimaalsed leksikonis salvestatavad tuvastusühikud (difoonid, silbid, pseudo-morfeemid, jms);
- luua valitud tuvastusüksustel baseeruv morfo-süntaktiline keelemudel; uurida semantiliste seoste modelleerimist statistilises keelemudelis;
- rakendada algoritme tuvastussüsteemi kiireks adapteerimiseks kõneleja häälduse eripäraga;
- uurida kõnetuvastussüsteemide rakendusprobleeme mobiilside kanalis;
- luua optimaalsed tehnoloogilised lahendused piiratud sõnavaraga (kuni 10 000 sõna) tuvastussüsteemide arendamiseks;
- uurida ja arendada tehnoloogilisi lahendusi piiramatu sõnavaraga tuvastussüsteemide loomiseks;
- välja töötada erinevaid tuvastussüsteemide prototüüpe.
Projekti tähtsus
Projekti raames luuakse eesti keelele sobiv kõnetuvastustehnoloogia ja arendatakse välja piiratud ning piiramatu sõnavaraga tuvastussüsteemide prototüübid. Kõnetuvastustehnoloogia väljatöötamine võimaldab hakata arendama suulisel kommunikatsioonil baseeruvaid kasutaja-sõbralikke liideseid, mis leiaksid rakendust infotehnoloogilistes süsteemides. Samuti on võimalik luua inimene-masin dialoogsüsteeme, mis asendaksid rutiinset inimtööd infootsingul. Kõnetuvastus avardab oluliselt puuetega inimeste võimalusi kasutada arvuteid ning loob neile paremad võimalused osalemiseks tööturul ning nende integreerimiseks ühiskonda. Kõnetuvastustehnoloogia loomine tagab eesti keelele “suurte” keeltega võrdsed tingimused ja kasutusvõimalused infotehnoloogilises keskkonnas ning loob seega eeldused eesti keele säilimiseks ja arenguks infoühiskonnas. Projekt on otseseks jätkuks RP Eesti keel ja rahvuslik mälu raames 2004-2005 finantseeritud kõnetuvastuse alasele projektile.
Põhitulemused
Täisautomaatne tuvastussüsteem pikkade kõnesalvestuste transkribeerimiseks
Tuvastussüsteem koosneb järgmistest komponentidest:
- Salvestuse segmenteerimine ja segmentide klassifitseerimine kõneks ja mittekõneks (näit. muusika).
- Kõnesegmentide automaatne klassifitseerimine kõneleja järgi.
- Kolmesammuline tuvastus: esimese sammu tuvastusväljundit kasutatakse igale kõnelejale optimeeritud CMLLR maatriksi arvutamiseks. Teises tuvastussammus kasutatakse saadud CMLLR maatrikesid tunnusvektorite ruumi transformeerimiseks; saadud tuvastusväljundit kasutatakse igale kõnelejale MLLR maatriksi arvutamiseks, millega transformeeritakse aksutiliste mudelite parameetreid. Kolmandas tuvastussammus kasutatakse koos CMLLR ja MLLR transformatsioone, et saada lõplik tuvastusväljund.
- Tuvastusväljundis on liitsõnad "tükeldatud". Liitsõnade rekonstrueerimiseks kasutatakse tinglike juhuslike väljade (ingl k 'conditional random fields') masinõppemeetodit.
Tuvastuskvaliteeti näitav sõnavigade osakaal tuvastatud tekstis erinevat liiki kõnesalvestuste puhul on:
- dikteeritud raadiouudised: 14,3%
- raadiote vestlussaated: 28,6%
- keeletehnoloogia konverentsi ettekanded: 37,1%
Veebikeskkond automaatsete kõnetranskriptsioonide sirvimiseks
Valminud onkõnesalvestuste transkriptsioonide sirvimist, salvestuste kuulamist, ning nendest otsingut võimaldav veebirakendus,
millega saab tutvuda aadressil http://bark.phon.ioc.ee/tsabVeebirakenduse lähtekood on saadaval AGPL litsensi alusel siit. Rakenduse implementeerimisel osales OÜ Codehoop.
Dikteerimissüsteemi prototüüp radioloogidele
Projekti raames arendatud meetodeid kasutades implementeeriti kõnetuvastussüsteemi prototüüp radioloogidele (koostöös AS-iga Cybernetica), mis esmastes eksperimentides on andnud väga häid tulemusi (vähem kui 10% sõnavigu adapteerimata ning reaalajalise tuvastuse puhul).
Muu tarkvara
- Piiratud sõnavaraga eestikeelse kõnetuvastuse demonstreerimiseks on loodud häälega juhitav kalkulaator. Rakendus oskab tuvastada numbreid ja tehtekäsklusi ning teostada
lihtsaid matemaatikatehteid. Tema kasutamine sarnaneb tavalise
nuppudega kalkulaatori kasutamisele, nuppude vajutamise asemel tuleb
lihtsalt kasutada kõnet. Programmi lähtekood on vaba tarkvara litsentsi alusel kasutatav, ning peaks võimaldama väikese süvenemise järel luua teistsuguse sõnavara ja grammatikaga piiratud sõnavaraga tuvastusrakendusi.
- Autosegmenteerija on tarkavara, millega saab segmenteerida eestikeelset kõnet sõnadeks ja häälikuteks, kasutades Markovi peitmudelitel põhinevaid kõnetuvastuse akustilisi mudeleleid. Tarkvara on eelkõige mõeldud foneetikutele foneetilise transkribeerimise kiirendamiseks.
Lisainfo
Publikatsioonid
- Teemu Ruokolainen, Tanel Alumäe and Marcus Dobrinkat. Using Dependency Grammar Features in Whole Sentence Maximum Entropy Language Models for Speech Recognition. Baltic HLT 2010, Riga.
- Tanel Alumäe, Einar Meister. Estonian Large Vocabulary Speech Recognition System for Radiology. Baltic HLT 2010, Riga.
- Tanel Alumäe, Mikko Kurimo. Domain Adaptation of Maximum Entropy Language Models. ACL 2010, Uppsala, Rootsi.
- Tanel Alumäe, Mikko Kurimo. Efficient Estimation of Maximum Entropy Language Models with N-gram features: an SRILM extension. Interspeech 2010, Chiba, Jaapan.
- Tanel Alumäe. Comparison of different modeling units for language model adaptation for inflected languages. Proceedings of CICLing 2008, Haifa, Iisrael.
- Tanel Alumäe, Toomas Kirt. LSA-based language model adaptation for highly inflected languages. Interspeech 2007. Antwerpen, Belgia.
- Tanel Alumäe. Automatic compound word reconstruction for speech recognition of compounding languages. Proceedings of NODALIDA 2007.
- Tanel Alumäe. Methods for Estonian Large Vocabulary Speech Recognition. Doktoritöö, Talinna Tehnikaülikool 2006.
- Tanel Alumäe. Sentence-adapted factored language model for transcribing Estonian speech. Proceedings of ICASSP 2006. Toulouse, Prantsusmaa-