Isiklikud vahendid
Oled siin: Algus EKKTT projektid Mitmesõnaliste verbide ja nende kokku-lahku kirjutamise vigade äratundmine eestikeelsetes tekstides
Navigeerimine
« Jaanuar 2021 »
Jaanuar
ETKNRLP
123
45678910
11121314151617
18192021222324
25262728293031
 

Mitmesõnaliste verbide ja nende kokku-lahku kirjutamise vigade äratundmine eestikeelsetes tekstides

PROJEKTI EESMÄRGID JA TÄHTSUS

 

Projekt jätkab muutusteta Riikliku Sihtprogrammi „Eesti keel ja rahvuslik mälu (2004-2008)” raames aastal 2004 alanud projekti „Mitmesõnaliste verbide ja nende kokku-lahku kirjutamise vigade äratundmine eestikeelsetes tekstides”.

Projekti raames on loodud esialgne testversioon programmist, mis mitmesõnalisi verbe tekstis märgendab. Mitmesõnaliste verbide suhtes on märgendatud ka 400 000 sõnaline varem morfoloogiliselt ühestatud korpus. Mitmesõnaliste verbide andmebaasi on täiendatud informatsiooniga, mis iseloomustab seal olevate väljendite potentsiaalseid muutevorme (nt. „vinti üle keerama“ nominaalne komponent võib esineda nii ainsuse nimetavas, omastavas kui osastavas käändes; „kaela langema“ nominaalne komponent aga ainult ainsuse lühikeses sisseütlevas).

Tähtsus

Mitmesõnaliste leksikaalsete üksuste (ühendverbid, väljendverbid jt) äratundmine (riikliku programmi alaeesmärk 3.2.3.3) on eesti keele automaatse morfoloogilise analüüsi, lemmatiseerimise vm viisil töötlemise osas seni lahendamata probleem, mis häirib ka teiste probleemide (süntaks, semantika) lahendamist.

Eestikeelsete mitmesõnaliste väljendite äratundmise-alase uurimistöö seisu võiks võrrelda üksiksõnade uurimise olukorraga. Sõnaraamatus on sõnad esitatud algvormis. See, kuidas tekstis olevad sõnavormid viia algvormide kujule, arvestades seejuures ka konteksti, ei ole kaugeltki triviaalne probleem, millest annab tunnistust hulk viimase 15 aasta jooksul ilmunud publikatsioone ja doktoritöid, mis on seotud just eesti keele arvutimorfoloogia ja morfoloogilise ühestamisega. Ka mitmesõnalised väljendid, s.h. mitmesõnalised verbid, esitatakse andmebaasis teatud kanoonilisel kujul, „algvormis“. On vähe väljendeid, mis tekstis esinevad alati ühesugusel kivinenud kujul (nt „tule eile meile“). Enamus väljendeid varieerub kontekstist sõltuvalt. See, kuidas tekstis esinevad väljendid viia nende „algvormi kujule“, on võib-olla isegi keerulisem ülesanne kui sõnavormide puhul.

Väljendite äratundmine on tingimata vajalik ka paljudes rakendustes: võõrkeele õppes, masintõlkes, info-otsingus, grammatika- ja stiilikorrektoris, kõne analüüsil ja sünteesil.

Eesmärgid

Projekti lõpp-eesmärgiks on leida seaduspärasused, mis võimaldaksid automaatselt ära tunda eestikeelses tekstis esinevaid mitmesõnalisi verbe - ühend- ja väljendverbe ning tugiverbi-ühendeid. (Tugiverb on sisutühi verb, mille funktsioon piirdub grammatiliste kategooriate – isik, aeg, tegumood jne – väljendamisega, nt. „tegema“ ühendis „tööd tegema“.) Seejuures lahendamist nõudev teoreetiline probleem (verbikeskse) püsiühendi piiridest jääb väljapoole antud projekti raame; selle jaoks on mõeldud ETF grant 2004-2007 „Mitmesõnaliste verbide struktuur eestikeelsetes tekstides“.

Väljendite äratundmine võimaldab asuda lahendama kokku-lahku kirjutamise lubatavuse probleemi konkreetses kontekstis. Nt. fraaside „*võttis ärakootud mütsi“, aga „haaras äramurtud mõõga“ lubatavus/mittelubatavus on seotud m. h. sellega, kas eesti keeles on olemas väljendid „ära võtma, *ära kuduma, *ära haarama, ära murdma“.

Lisainfo projekti kohta: http://www.keeletehnoloogia.ee/syndmused/konverents/slaidid/kaalep-mitmesonalised.ppt

Publikatsioonid:

Kaalep, H.-J. Muischnek, K. 2006. Multi-word verbs in a flective language: the case of Estonian. Proceedings of the EACL workshop on Multi-word expressions in a multilingual context: 11th Conference of the European Chapter of the Association for Computational Linguistics; Trento, Italy; 3 April 2006 Rayson, P. Sharoff, S. Adolphs, S. Association for Computational Linguistics, pp. 57 - 64. http://www.cl.ut.ee/yllitised/trento2006.pdf

Tegevused dokumentidega