Isiklikud vahendid
Oled siin: Algus EKT projektid Uued ressursid masintõlkes

Uued ressursid masintõlkes

Projekti kirjeldus

 

•    Projekti läbiviiva asutuse nimi
TÜ ATI
•    Projektijuht (või ametlik kontaktisik) ning tema e-posti aadress
Heiki-Jaan Kaalep heiki-jaan.kaalep@ut.ee
•    Projekti läbiviiv meeskond
Mark Fišel, Kaarel Veskis, Urmo Visk, Siim Orasmaa
•    Projekti vajadus ja taust
Lähteolukord 2011 alguses.

1. Platvorm fraasipõhise SMT eksperimentide läbiviimiseks (Moses).
2. Paralleelkorpused (eesti/inglise sõnu, miljonites): JRC-Acquis – EL seadusandlus, 18,4/25; EMEA – meditsiin, 9,6/11,1 KDE4 – infotehnoloogia, 1,6/1,9; OPUS – varia, 1/1)
3. Probleem: nende paralleelkorpuste peal treenitud süsteemid ei saa hästi hakkama selle keelega, mida kasutajad soovivad. Palju on tundmatuid sõnu ja ka lauseehitus on erinev. Ehk teiste sõnadega - need süsteemid ei ole hästi porditavad.

Varem juhtus TÜ masintõlke arendamisel mitu korda, et 1. katsetati midagi JRC-Acquis’ peal, 2. samal korpusel testides paistis hea olevat, 3. pandi see muudatus veebi välja, ning 4. osutus, et uus tõlkemudel tõlkis sama halvasti või veelgi halvemini kui varasem. 2011 alguses loodi nn. TempEst korpus. See on Liisi Pooli poolt inglise keelde tõlgitud eestikeelsed laused, mille kasutajad on andnud masintolge.ut.ee lehele tõlkida. Korpuses on kokku 2800 lauset, eesti keeles 23 000 sõna. Ta peaks esindama keelt, mida kasutajatel tõepoolest vaja läheb (erinevalt nt. EL seadustekstide korpusest).
Osutus, et TempEst-korpuse loomine oli väga oluline samm: siiani oli tekstide valdkondade erinevust suures osas ignoreeritud, samas kui valdkonna kohendamine (domain adaptation) on viimasel ajal masintõlkes populaarsust suurendamas.

•    Projekti eesmärgid
Kasutades uusi korjatavaid paralleelkorpusi, mis kajastavad loomulikumat keelt (nt. tõlgitud subtiitrid) ja sõnastikke, saavutada masintõlke kvaliteedi paranemine tasemele, mis ületab Google-i tõlke oma. (Selline paranemine saab olla küll ainult ajutine, kuni Google võtab kasutusele samasugused uued ressursid.)

•    Projekti planeeritud tulemused
Projekti tulemusena loodud masintõlkesüsteem on veebis väljas ja kõigile vabalt kasutamiseks.
•    Projekti senised tulemused ja saavutused
1. Uute paralleelkorpuste korjamisest on loobutud, sest see töö on ära tehtud mujal, muude keelte paralleelkorpuste korjamise kontekstis. Seetõttu keskendutakse paralleelkorpuste kvaliteedi automaatsele kontrollimisele.
On kontrollitud OpenSubtitles v.2 (http://opus.lingfil.uu.se/OpenSubtitles_v2.php) korpusefailide omavahelist kattuvust ja sarnasust (korpuses esineb nii sama algteksti alternatiivseid tõlkeid kui lihtsaid duplikaate, mis erinevad üksteisest nt ajastuskoodide poolest või algustiitrite olemaolu/puudumise poolest, aga ka juhtumeid, kus sama mitmeseerialine  film on esitatud kord ühe terve subtiitrifailina, kord aga eraldi seeriatena). Selle tegevuse eesmärk oli automaatselt tuvastada nii duplikaadid (mis rikuvad statistilist jaotust) kui ka paralleelistusvead. Tulemused on väljas OPUSe kodulehel.
2. On treenitud uued tõlkemudelid, mis arvestavad kõiki olemasolevaid korpusi (11,2 miljonit paralleelüksust, 127,8 miljonit sõna eesti keeles, 167,2 miljonit inglise keeles) ning neile vastav demosüsteem on väljas lehel masintolge.ut.ee
Tõlke kvaliteet jääb siiski Google-i tõlkele mõnevõrra alla.

 

Tegevused dokumentidega