Isiklikud vahendid
Oled siin: Algus EKKTT projektid Eestikeelse kõnetuvastuse meetodite uurimine ja arendamine
Navigeerimine
« Detsember 2019 »
Detsember
ETKNRLP
1
2345678
9101112131415
16171819202122
23242526272829
3031
 

Eestikeelse kõnetuvastuse meetodite uurimine ja arendamine

Sissejuhatus

Projekti eesmärgiks on eesti keelele sobivate kõnetuvastuse meetodite uurimine, arendamine ja testimine ning erinevate tuvastussüsteemi prototüüpide loomine.

Projekti olulisemad ülesanded

  • uurida, millised on optimaalsed leksikonis salvestatavad tuvastusühikud (difoonid, silbid, pseudo-morfeemid, jms);
  • luua valitud tuvastusüksustel baseeruv morfo-süntaktiline keelemudel; uurida semantiliste seoste modelleerimist statistilises keelemudelis;
  • rakendada algoritme tuvastussüsteemi kiireks adapteerimiseks kõneleja häälduse eripäraga;
  • uurida kõnetuvastussüsteemide rakendusprobleeme mobiilside kanalis;
  • luua optimaalsed tehnoloogilised lahendused piiratud sõnavaraga (kuni 10 000 sõna) tuvastussüsteemide arendamiseks;
  • uurida ja arendada tehnoloogilisi lahendusi piiramatu sõnavaraga tuvastussüsteemide loomiseks;
  • välja töötada erinevaid tuvastussüsteemide prototüüpe.

Projekti tähtsus

Projekti raames luuakse eesti keelele sobiv kõnetuvastustehnoloogia ja arendatakse välja piiratud ning piiramatu sõnavaraga tuvastussüsteemide prototüübid. Kõnetuvastustehnoloogia väljatöötamine võimaldab hakata arendama suulisel kommunikatsioonil baseeruvaid kasutaja-sõbralikke liideseid, mis leiaksid rakendust infotehnoloogilistes süsteemides. Samuti on võimalik luua inimene-masin dialoogsüsteeme, mis asendaksid rutiinset inimtööd infootsingul. Kõnetuvastus avardab oluliselt puuetega inimeste võimalusi kasutada arvuteid ning loob neile paremad võimalused osalemiseks tööturul ning nende integreerimiseks ühiskonda. Kõnetuvastustehnoloogia loomine tagab eesti keelele “suurte” keeltega võrdsed tingimused ja kasutusvõimalused infotehnoloogilises keskkonnas ning loob seega eeldused eesti keele säilimiseks ja arenguks infoühiskonnas. Projekt on otseseks jätkuks RP Eesti keel ja rahvuslik mälu raames 2004-2005 finantseeritud kõnetuvastuse alasele projektile.

Põhitulemused

Täisautomaatne tuvastussüsteem pikkade kõnesalvestuste transkribeerimiseks

Tuvastussüsteem koosneb järgmistest komponentidest:

  • Salvestuse segmenteerimine ja segmentide klassifitseerimine kõneks ja mittekõneks (näit. muusika).
  • Kõnesegmentide automaatne klassifitseerimine kõneleja järgi.
  • Kolmesammuline tuvastus: esimese sammu tuvastusväljundit kasutatakse igale kõnelejale optimeeritud CMLLR maatriksi arvutamiseks. Teises tuvastussammus kasutatakse saadud CMLLR maatrikesid tunnusvektorite ruumi transformeerimiseks; saadud tuvastusväljundit kasutatakse igale kõnelejale MLLR maatriksi arvutamiseks, millega transformeeritakse aksutiliste mudelite parameetreid. Kolmandas tuvastussammus kasutatakse koos CMLLR ja MLLR transformatsioone, et saada lõplik tuvastusväljund.
  • Tuvastusväljundis on liitsõnad "tükeldatud". Liitsõnade rekonstrueerimiseks kasutatakse tinglike juhuslike väljade (ingl k 'conditional random fields') masinõppemeetodit.

Tuvastuskvaliteeti näitav sõnavigade osakaal tuvastatud tekstis erinevat liiki kõnesalvestuste puhul on:

  • dikteeritud raadiouudised: 14,3%
  • raadiote vestlussaated: 28,6%
  • keeletehnoloogia konverentsi ettekanded: 37,1%

Veebikeskkond automaatsete kõnetranskriptsioonide sirvimiseks

Valminud onkõnesalvestuste transkriptsioonide sirvimist, salvestuste kuulamist, ning nendest otsingut võimaldav veebirakendus,

millega saab tutvuda aadressil http://bark.phon.ioc.ee/tsab

Veebirakenduse lähtekood on saadaval AGPL litsensi alusel siit. Rakenduse implementeerimisel osales OÜ Codehoop.

Dikteerimissüsteemi prototüüp radioloogidele

Projekti raames arendatud meetodeid kasutades implementeeriti kõnetuvastussüsteemi prototüüp radioloogidele (koostöös AS-iga Cybernetica), mis esmastes eksperimentides on andnud väga häid tulemusi (vähem kui 10% sõnavigu adapteerimata ning reaalajalise tuvastuse puhul).

Muu tarkvara

  • Piiratud sõnavaraga eestikeelse kõnetuvastuse demonstreerimiseks on loodud häälega juhitav kalkulaator. Rakendus oskab tuvastada numbreid ja tehtekäsklusi ning teostada lihtsaid matemaatikatehteid. Tema kasutamine sarnaneb tavalise nuppudega kalkulaatori kasutamisele, nuppude vajutamise asemel tuleb lihtsalt kasutada kõnet. Programmi lähtekood on vaba tarkvara litsentsi alusel kasutatav, ning peaks võimaldama väikese süvenemise järel luua teistsuguse sõnavara ja grammatikaga piiratud sõnavaraga tuvastusrakendusi.
  • Autosegmenteerija on tarkavara, millega saab segmenteerida eestikeelset kõnet sõnadeks ja häälikuteks, kasutades Markovi peitmudelitel põhinevaid kõnetuvastuse akustilisi mudeleleid. Tarkvara on eelkõige mõeldud foneetikutele foneetilise transkribeerimise kiirendamiseks.

 

Lisainfo

Siin.

Publikatsioonid

  • Teemu Ruokolainen, Tanel Alumäe and Marcus Dobrinkat. Using Dependency Grammar Features in Whole Sentence Maximum Entropy Language Models for Speech Recognition. Baltic HLT 2010, Riga.
  • Tanel Alumäe, Einar Meister. Estonian Large Vocabulary Speech Recognition System for Radiology. Baltic HLT 2010, Riga.

 

Tegevused dokumentidega