Isiklikud vahendid
Oled siin: Algus EKT projektid Kõnetuvastus Projekti eesmärgid

Projekti eesmärgid

Projekti eemärgiks on olemasoleva eestikeelse kõnetuvastustehnoloogia täiustamine, tehnoloogia kättesaadavakstegemine uute rakenduste loomiseks, juba olemasolevate rakenduste täiendamine ning uute rakenduste loomine.

Kõnetuvastustehnoloogiat täiustamisel pööratakse põhitähelepanu sellistele aspektidele, mille puhul on hetkel kvaliteet suhteliselt madal. Eesmärgid on:

  • parem tuvastuskvaliteet madalama kvaliteediga kõnesalvestuste puhul (eelkõige läbi telefonikanali salvestatud kõne puhul);
  • parem kvaliteet spontaanse kõne puhul;
  • aktsendiga kõnelejate parem käsitlemine;
  • nimega üksuste mainimiste parem tuvastus;
  • kõne indekseerimine terminite ja nimega üksuste otsimiseks;

EKKTT projekti “Eestikeelse kõnetuvastuse meetodite uurimine ja arendamine” raames välja töötatud kõnetuvastustehnoloogia täpsust näitav valesti tuvastatud sõnade osakaal (’word error rate’) oli 28,6% raadiote vestlussaadete ning 37,1% konverentsiettekannete salvestuste puhul. Selle projekti eesmärgiks on vähendada vigade arvu suhteliselt 25% võrra vastavalt umbes 21,5 ja 28%-ni.Lisaks sellele on eesmärk saavutada raadiote telefoniintervjuude tüüpi kõne puhul vigade protsent alla 35%.

Kuigi antud projektiga seotud projekti “Kõne- ja multimodaalsed korpused” raames on kavas käsitsi transkribeerida uusi treeningandmeid eelpoolmainitud eemärkide saavutamiseks, on teiseks mudelite täiustamise lähtekohaks poolautomaatselt genereeritud treeningandmed. Selliste treeningandmete allikaks on mitmesugused veebis või mujal lihtsalt kättesaadaval olevad suuremahulised kõnesalvestused, millega kaasnevad osaliselt täpsed transkriptsioonid, näiteks riigikogu ja kohalike omavalitsuste istungite salvestused koos stenogrammidega, uudisteportaalide videoklipid koos juurdekuuluvate tekstidega. Selliste andmete kasutuselevõtuks tuleb neid esmalt töödelda juba olemsaoleva kõnetuvastusmootori abil, et leida sellised kõnesegmendid, mis osaliste transkriptsioonide segmentidega tõenäoliselt kokku langevad.

Lisaks eelnevale on kavas tegeleda kõnetuvastuse väljundi struktureerimise meetoditega, mis võimaldaksid kõnetuvatuse väljundi “kirjavahemärgistamist”, nimega üksuste identifitseerimist ning automaatset teemadeks segmenteerimist. Kirjavahemärkide lisamine teeb kõnetuvastuse väljundi mugavamini loetavaks, teemade ja nimega üksuste identifitseerimine on oluline näiteks meediamonitooringu puhul, mis on üks kõnetuvastuse olulisi rakendusi.

Loodav tehnoloogia avaldatakse tasuta koos lähtekoodiga sellises vormis, mis võimaldab teda võimalikult lihtsalt integreerida kolmandate isikute loodavatesse rakendustesse.

Programmi raames on kavas luua uusi kõnetuvastusrakendusi. Reaalajalist kõnetuvastust eeldavate rakenduste realiseerimise lihtsustamiseks luuakse veebipõhine reaalajalise kõnetuvastuse server, dokumenteeritakse serveri suhtlusprotokoll ning implementeeritakse serveriga suhtlemist võimaldav tarkvarateek.

Uute rakenduste osas on plaanis tähelepanu pöörata järjest populaarsemaks saavate nutitelefonide rakendustele. Nutitelefonidel puudub üldjuhul füüsiline klaviatuur, mis teeb selle abil teksti sisestamise suhteliselt vaevaliseks. Seetõttu on kõnetuvastuse kasutamine nutitelefonide puhul igati põhjendatud. Projekti raames on kavas implementeerida kõnepõhist tekstisisestamist võimaldav rakendus Android operatsioonisüsteemisüsteemi kasutavatele nutitelefonidele. Samuti implementeeritakse pikemate kõnelõikude salvestamist, organiseerimist ja automaatset transkribeerimist toetav diktofonilaadne Android-rakendus, mis võiks sobida näiteks ajakirjanikele intervjuude tegemiseks ja hilisemaks nendes orienteerumiseks. Nimetatud rakendused vajavad suurt tuvastussõnavara, mille jaoks on nutitelefonide protsessor liiga aeglane. Sellepärast toimub kõnetuvastus serveris ning nutitelefonid saadavad kõnesignaali serverisse üle võrgu. Nutitelefonide riistvara on siiski piisavalt võimekas piiratud sõnavaraga rakenduste loomiseks. Projekti raames ongi kavas mõni selline rakendus implementeerida, mis kasutab nutitelefoni enda riistavara eestikeelseks kõnetuvastuseks. Kõikide rakenduste lähtekoodid avaldatakse sellise vaba tarkvara litsensi alusel, mis lubab lähtekoodi kasutamist ka kommertsrakendustes.

Tegevused dokumentidega