Isiklikud vahendid
Oled siin: Algus EKKTT projektid Masintõlge I
Navigeerimine
« Oktoober 2019 »
Oktoober
ETKNRLP
123456
78910111213
14151617181920
21222324252627
28293031
 

Masintõlge I

PROJEKTI EESMÄRGID JA TÄHTSUS 

Projekt jätkab muutusteta Riikliku Sihtprogrammi „Eesti keel ja rahvuslik mälu (2004-2008)” raames aastal 2004 alanud projekti „Masintõlge I”.

Projekti raames on loodud lausete kaupa paralleelistatud inglise-eesti korpus (maht keeliti 7,8 ja 5,0 miljonit sõna) ning tehtud esimesed katsed tõlkida nii eesti keelest inglise keelde kui ka vastupidi, kasutades selleks vabavaralist statistilise masintõlke programmi Pharaoh (http://www.isi.edu/licensed-sw/pharaoh/).

Tähtsus

Masintõlge on kiiresti arenev valdkond; kiiresti arenevad nii kasutatavad meetodid kui ka vastav tarkvara (s.h. vabavara), mis on orienteeritud järjest suuremate ja lingvistiliselt rohkem märgendatud tekstikorpuste kasutamisele. Praegusel etapil ongi põhirõhk korpustel kui edasise töö alusel, mis pealegi ei vanane nii kiiresti kui momendil kasutatavad meetodid ja tarkvara.

Erinevatest masintõlke meetoditest on uuele keelele hõlpsamini rakendatavad statistilised masintõlkesüsteemid. Statistilised süsteemid on, vähemalt teoreetiliselt, keelest sõltumatud. Seega läheb nende süsteemide uuele keelepaarile rakendamiseks vaja vaid piisavalt suurt (aga piisavalt suur on vähemalt paarkümmend miljonit sõna suur) paralleelkorpust, millest süsteem leiab ise tõlkevastete tõenäosused ja koostab sihtkeele keelemudeli.

Siiski on MT-alastes uuringutes viimasel ajal jõutud tõdemuseni, et ainult statistilistest meetoditest ei piisa hea tõlke saamiseks, eriti üksteisest tüpoloogiliselt erinevate keelte puhul. Nii ongi aktuaalseks muutunud statistiliste ja lingvistiliste meetodite kombineerimine.

Eesmärgid

1. Parandada olemasoleva inglise-eesti korpuse paralleelistamise kvaliteeti, suurendada tema mahtu ja mitmekesistada tekstide valikut (Riikliku programmi alaeesmärk 3.2.1.2).

2. Märgendada korpus lingvistiliselt nii põhjalikult kui see on automaatselt võimalik (morfoloogiliselt, fraaside ja väljendite osas, süntaktiliselt, semantiliselt). Seda tuleb teha nii eesti kui inglise keele osas. Seejuures eeldame, et tarkvara, mida korpuste märgendamiseks kasutatakse, töötatakse välja muude projektide raames; antud projektis ainult kohandatakse teda.

3. Teha seeria masintõlke eksperimente nii olemasolevate vabavaraliste kui TÜs välja töötatud tarkvarapakettidega, kasutades momendil olemas olevaid korpusi. Eksperimentide tulemused peavad olema seejuures omavahel võrreldavad. Sellist metoodikat kasutades otsime eesti keele seisukohast perspektiivsemaid algoritme ja lahendame probleeme, mis takistavad just eesti keelega seotud masintõlget.

Lisainfo projekti kohta: www.keeletehnoloogia.ee/syndmused/konverents/slaidid/kaalep-masintolge.ppt

Masintõlke eksperimentide tulemused: http://ats.cs.ut.ee/smt/

Projektiga seonduvad publikatsioonid:

1. M. Fishel, H.-J. Kaalep, K. Muischnek, 2007. Estonian-English Statistical Machine Translation: the First Results. The 16th Nordic Conference of Computational Linguistics NODALIDA’2007, Tartu, Estonia. -http://dspace.utlib.ee/dspace/bitstream/10062/2589/1/post-Fishel-13.pdf

2. H.-J. Kaalep, K. Veskis 2007.  Comparing Parallel Corpora and Evaluating their Quality. MT Summit XI Proceedings: Machine Translation Summit XI. Copenhagen, Denmark, ed. Bente Maegaard, Kopenhaagen, Taani, pp. 275 - 280. - http://www.mt-archive.info/MTS-2007-Kaalep.pdf

3. M. Fishel 2008. Statistical Machine Translation Output Improvement using Morphological Templates (avaldamata). - http://ats.cs.ut.ee/smt/posmorph/article.pdf

4. M. Fishel, H.-J. Kaalep 2008: Experiments on Processing Overlapping Parallel Corpora, proceedings of the International Conference on Language Resources and Evaluation LREC'2008, in print, Marrakech, Morocco. - http://lepo.it.da.ut.ee/~fishel/doc/publ/paralign.lrec08.pdf

Tegevused dokumentidega