Isiklikud vahendid
Oled siin: Algus EKKTT projektid Eestikeelne infodialoog arvutiga
Navigeerimine
« Oktoober 2019 »
Oktoober
ETKNRLP
123456
78910111213
14151617181920
21222324252627
28293031
 

Eestikeelne infodialoog arvutiga

MOTIVATSIOON JA EESMÄRGID

Seoses arvutite levikuga omandab järjest suurema tähtsuse tarkvara, mis vahendab inimese suhtlust arvutiga loomulikus keeles, sh kõne abil. Inglise jmt keele jaoks kasutatakse arvukalt kõnedialoogsüsteeme automaatsete telefoniteenuste osutamiseks erinevates valdkondades (sh reiside kavandamine, piletite reserveerimine, ülikooliastujate nõustamine). Eesti keele jaoks selline süsteem seni puudub.
Projekti eesmärgiks on tarkvara väljatöötamine, mis võimaldaks eestikeelset küsimus-vastusdialoogi arvutiga inimestevahelise suhtluse reeglite kohaselt (sh täpsustavate küsimuste esitamine, tagasiside, kultuurispetsiifilised rituaalid jms).
Sellise tarkvara loomiseks vajalik keeleressurss on märgendatud dialoogikorpus. Suuliste dialoogide allikaks on Eesti suulise keele korpus; inimese ja arvuti vaheliste dialoogide kogumiseks luuakse vajalik tarkvara – veebirakendused, mis võimaldavad inimestel eesti keeles suhelda kas tegeliku või simuleeritud arvutiga (viimasel juhul nn võlur Ozi meetodil).
Kohandatakse ja arendatakse varem loodud dialoogiaktide märgendusskeemi, täiendatakse dialoogiaktide märgendamise tarkvara.
Uuritakse dialoogiaktide automaatse tuvastamise erinevaid meetodeid (otsustuspuud, mis kasutavad dialoogiaktide keelespetsiifilisi morfoloogilisi, süntaktilisi, semantilisi tunnuseid, ka tehisnärvivõrgud, Markovi peitmudelid jmt), et valida eesti keelele sobiv formalism.
Luuakse eestikeelse infodialoogi juhtimise mudel ja koostatakse vastav programm, millega lõimitakse olemasolevad või teiste keeletehnoloogiaprojektide toel loodavad eesti keele automaatse analüüsi ja sünteesi moodulid. Selle tulemusel valmib programm – eestikeelse telefoniteenuste süsteemi prototüüp.

SENISED TULEMUSED

1. Eesti dialoogikorpuse töötlemiseks on loodud veebis kasutatav tarkvara, nn dialoogikorpuse tööpink (autor Margus Treumuth). Tööpingi abil saab korpusest mitmesuguste kriteeriumide alusel välja valida alamkorpusi ja valitud alamkorpustes sooritada päringuid. Tööpingi kasutamine ja juurdepääs dialoogikorpusele on paroolipõhine (sest dialoogikorpuse põhilise osa moodustavad autentsete inimestevaheliste dialoogide transkriptsioonid).
2. Eestikeelsete dialoogide märgendustarkvara on viidud kujule, mis võimaldab märgendada dialoogiaktidega tekstifailidena esitatud dialooge (Evely Vutt, Maret Valdisoo). Ühes aknas on märgendatav fail, teises aga dialoogiaktide puu, milles märgendaja saab liikuda ja hiire abil valikuid teha. Märgendamiseks kasutatakse varem väljatöötatud dialoogiaktide tüpoloogiat, mis sisaldab kokku 126 akti. Aktid on liigitatud mitme kriteeriumi alusel, seda liigitust toetab ka märgendustarkvara.
3. On koostatud tarkvara – dialoogiaktide automaatse tuvastamise raamistik –, mis võimaldab testida mitmesuguseid meetodeid dialoogiaktide tuvastamisel eestikeelsetes dialoogides antud tüpoloogia kohaselt (tarkvara autor Mark Fišel). Raamistikku on lõimitud ka eesti keele morfoloogiline analüsaator ESTMORF.
4. Selle raamistiku abil on testitud masinõppe meetodeid dialoogiaktide automaatseks tuvastamiseks (naiivne Bayes, otsustuspuud, prefiksipuud).
5. On valminud dialoogiaktide poolautomaatse märgendamise tarkvara algversioon: testimisel parimaks osutunud meetodil leitakse dialoogis igale lausungile automaatselt kuni viis kõige tõenäolisemat dialoogiakti ja seejärel parandab inimene-annoteerija märgendusvead (autor Mark Fišel).
6. On selgitatud välja keelelised märguanded sagedasemate infoaktide (direktiivid, küsimused) ja rituaalsete aktide tuvastamiseks eestikeelsetes suulistes dialoogides. 
7. Eesti dialoogikorpuse maht seisuga 1. november 2007: 1061 transkribeeritud suulist dialoogi (mis moodustavad u 15% Eesti suulise keele korpuse mahust), 22 võlur Ozi meetodil kogutud kirjalikku reisidialoogi ja u 50 dialoogi, mis on kogutud kahe veebipõhise küsimus-vastussüsteemi Reisiagent ja Teatriagent arendamise käigus (dialoogitöötlusmooduli autor ning kõnemoodulite integreerija mõlemas süsteemis Margus Treumuth). Suulistes ja võlur Ozi meetodil kogutud dialoogides on märgendatud dialoogiaktid.

PROJEKTI KÄIGUS LOODUD RESSURSSIDE KASUTAMINE

  • Eesti dialoogikorpus on kättesaadav veebis (läbi projekti käigus loodud dialoogikorpuse tööpingi). Tööpingi kasutamine ja juurdepääs dialoogikorpusele on paroolipõhine (sest dialoogikorpuse põhilise osa moodustavad autentsete inimestevaheliste dialoogide transkriptsioonid). Parooli saamiseks ning suuliste dialoogide transkriptsioonide ja helifailide kasutamiseks tuleb pöörduda Eesti suulise keele korpuse administraatori poole (Olga Gerassimenko: olga.gerassimenko at ut.ee). Vt ka TÜ suulise kõne uurimisrühm.
  • Dialoogikorpuse dialoogiaktide märgendussüsteemi loomisel on lähtutud tuntumatest aktitüpoloogiatest, mida maailmas enim kasutatakse (rahvusvaheline standard pole seni veel fikseeritud).

Veel infot: Eesti dialoogikorpus

             

Tegevused dokumentidega