Isiklikud vahendid
Oled siin: Algus EKKTT projektid Automaatne parafraaside leidmine ning sõnade ja lühifraaside tõlkimine paralleelkorpuste abil
Navigeerimine
« Oktoober 2019 »
Oktoober
ETKNRLP
123456
78910111213
14151617181920
21222324252627
28293031
 

Automaatne parafraaside leidmine ning sõnade ja lühifraaside tõlkimine paralleelkorpuste abil

MIDA

Käesolev projekt tegeleb tööriista loomisega, mis võimaldab sisendfraasidele tõlkeid või parafraase leida. Tööriista veebiliides asub aadressil http://ats.cs.ut.ee/parafraasid/. Nii tööriist ise kui liides on veel arendamisjärgus.

MILLEKS

Antud tööriista saab kasutada abivahendina tõlkimisel või ühekeelse teksti kirjutamisel. Viimasel juhul on tööriist abiks parafraseerimisel, leidmaks mingi mõtte väljendamiseks just seda kõige sobivamat sõna või fraasi. Kirjutades võib kaunis sagedasti esineda olukord, kus mingit mõtet on raske kirja panna, kuna selle väljendamiseks vajalik sõna või fraas ei tule meelde. Plaanitud tööriist aitaks sellisel puhul, kuna sarnase tähendusega sõna või fraasi sisestamisel on mõni väljastatud parafraasidest suure tõenäosusega just see vajalik puuduv sõna või fraas. Ka tõlkimisel pakub tööriist laiema diapasooniga tõlgete valikut kui tavaline sõnaraamat, kuna väljundiks on sisendsõna või fraasi tõlked paljudes erinevates kontekstides. Väljastatud tõlgete ja parafraasidega koos väljastatakse ka väike tekstilõik, mis näitab, millises kontekstis vastav tõlge või parafraas esines. Tööriista abil leitud parafraase on võimalik kasutada eesti keele tesauruse/wordneti täiendamisel, kuid tööriistast on abi ka muud sorti leksikograafilises töös.

KUIDAS

Kirjeldatud tööriista töö põhineb joondatud paralleelkorpuste kasutamisel. Masintõlkes on selliste korpuste kasutamine väga levinud, nende kasutamine parafraaside leidmiseks on aga kaunis värske idee. Idee pärineb Chris Callison-Burchilt. Ta käsitles seda meetodit väga põhjalikult oma doktoritöös (2007). Antud projekt erineb masintõlkeprojektist, kuna sisendfraasidele vastusena väljastatavaid üksikuid tõlkefraase ei kombineerita kokku erinevatest allikatest, vaid alati on tegu inimtõlkide poolt mingis projektis kasutatud tõlkevastetega. (Vigu tekib siiski päris palju, peamiseks süüdlaseks on siin korpuste automaatsel joondamisel tehtud vead.)

Andmetest on meie põhiallikas olnud algusest peale Acquis Communautaire tõlkemälu DGT-TM, aga samas tegeleme ka ise aktiivselt materjali juurde muretsemisega (kui lugeja oskab meid selles osas aidata, siis palun võtke kindlasti ühendust). Tööd raskendab asjaolu, et tõlkebürood ei taha oma (ka meile väga) väärtuslikku tõlkemäludes talletatud materjali välja anda.

Tegevused dokumentidega