Isiklikud vahendid
Oled siin: Algus EKT projektid Kõnetuvastus 2012. a töökava

2012. a töökava

Mobiilirakenduste edasiarendamine

Kavas on edasi arendada Android-platvormil töötavaid kõnetuvastusrakendusi ning neid toetavat serveritarkvara.

Esimeseks eemärgiks on lisada rakendusele “Kõnele” (ning vastavalt ka kõnetuvastusserverile) kõneleja-põhise adapteerimise tugi, mis võimaldaks kasutajal luua enda häälele adapteeritud akustilisi mudeleid. Selleks kavandatakse ja implementeeritakse rakenduse ja serveri suhtlusprotokolli laiendus, implementeeritakse rakenduse kasutajaliides, ning realiseeritakse adapteerimisfunktsionaalsus serveris. Selline arendus võimaldaks kasutada rakendust “Kõnele” lihtsalt ka kõnekorpuse kogumiseks.

Teise suunana on kavas teha rakendus “Kõnele” sarnaseks Android 4.0-s oleva Google’i poolt implementeeritud kõnetuvastusega: rakendus peaks kõnelemise ajal kuvama ekraanil juba räägitud kõnest leitud osalise tuvastushüpoteesi, samuti peaks olema võimalik pikemate kõnelõikude (näiteks tervete e-mailide) dikteerimine, vajaduseta teha lausetevahelisi pikki pause ja nupuvajutusi.

Kolmanda suunana tahame parandada mobiilse kõnetuvastuse üldist kvaliteeti. Selleks kasutame EKT projekti “Kõne- ja multimodaalsed korpused” raames transkribeeritavaid andmeid, millega adapteerime olemasolevaid akustilisi mudeleid ja keelemudelit. Eksperimentaalsema suunana on kavas testida mobiili-liidese poolt saadetud metaandmete (näiteks rakenduse kohta, kus kõnetuvastust kasutati) rakendamist keelemudeli adapteerimiseks. Selle idee ajendiks on tähelepanek, et erinevates rakendustes (näiteks kaardirakendus vs. meeldetuletusrakendus) on väga erinev sõnavara ja lausestruktuur.

Nimede tuvastamise täiustamine

Kõnetuvastuses on üheks suureks probleemiks nimede tuvastamine. Põhjus on eelkõige see, et aktuaalsesse sõnavarasse lisandub pidevalt uusi nimesid (näit. seoses uudistega). Selliseid nimesid ei pruugi esineda keelemudeli treenimiseks kasutatavates tekstides, mistõttu neid pole keelemudeli sõnavaras, või nad on seal väga väikese tõenäosusega. Samuti on keeruline korrektselt modelleerida võõrnimede hääldust. Lisaks sellele kipub praegu kasutatav tuvastussüsteem mitte kirjutama pärisnimesid korrektselt läbiva suure tähega (näiteks tüüpiliselt “Einar meister, Toomas tool”). See halvendab tuvastatud teksti loetavust.

Selle alamülesande raames on kavas kvantitatiivselt hinnata nimede tuvastamise ja nimega üksuste tuvastatud tekstist leidmise praegust seisu, leida olulisemad veasituatsioonid ning arendada meetodeid olukorra parandamiseks. Mõned rakendatavad meetodid:

  • nimede klassifitseerimine eesti- ja võõrnimedeks; häälduse genereerimine nimedele vastavalt leitud klassifikatsioonile;
  • nimede modelleerimine keelemudelis klassipõhise mudeliga; see lubaks uute nimede hõlpsamat lisamist keelemudeli sõnavarasse;
  • nimede leidmine tuvastatud tekstis kasutades tinglike juhuslike väljade masinõppemeetodit; nimede vastav “suurtähestamine”.

Pikkade kõnesalvestuste tuvastuskvaliteedi parandamine

Kuna praeguse pikkade kõnesalvestuste transkribeerimissüsteemi kvaliteet pole veel saavutanud projekti algeemärkides saavutatud taset, tegeleme ka selle süsteemi täiustamisega. Mõned meetodid, mida rakendada kavatseme:

  • neljanda sammu lisamine praegusele kolmesammulisele tuvastussüsteemile; neljandas sammus rakendatakse keerulisemat keelemudelit ja/või keerulisemat dekodeerimisalgoritmi lõpliku tuvastushüpoteesi leidmiseks kolmandas sammus konstrueeritud tuvastushüpoteeside graafist;
  • täiustatud akustiliste tunnuste rakendamine (VTLN, helilisus)
Tegevused dokumentidega