Isiklikud vahendid
Oled siin: Algus EKT projektid Eesti avatud paralleelkorpus

Eesti avatud paralleelkorpus

Projekti „Eesti avatud paralleelkorpus” eesmärk on luua oluline kogus keeleressursse statistiliste masintõlkesüsteemide parendamiseks. Projekt aitab kaasa olukorra saavutamisele kus:
(i) Erinevad kommerts- ja kogukondlikud masintõlkesüsteemid pakuvad kvaliteetset tõlketeenust.
(ii) Masintõlkesüsteemide teenused on lõppkasutajatele võimalikult väheste piirangutega (tasu, maht, kasutatavad platvormid) kättesaadavad.
(iii) Sõltuvus üksikutest masintõlketeenuste kommertsteenusepakkujatest ei ole kriitiline ja on asendatav avatud ning vabavaraliste lahendustega.

Projekti mõõdetavad tulemid on:
(i) Kogutud ja korrastatud paralleelkorpuste maht. Projekti esimese aasta jooksul kogutud vähemalt 2,5 miljonit ühikut (sõna), projekti lõpuks vähemalt 15 miljonit ühikut.
(ii) Kogutud korpuste - täiedavalt olemasolevatele korpustele - abil treenitud masintõlkesüsteemide kvaliteedinäitajate parenemine (mõõdetakse koostöös masintõlkesüsteemide omanikega).
(iii) Kogutud korpused aksepteeritud ja publitseeritud META-SHARE (http://www.meta-net.eu/meta-share) ja CLARIN (http://www.clarin.eu/external/) baasides.

Projekti tulemina loodava paralleelkorpuse omadused:
• Lause tasandil joondatud inglise-eesti paralleelkorpus.
• Korpus kirjeldatakse kasutades META-SHARE metaandmete formaati.
• Korpus on kättesaadav tasuta ja piiranguteta kasutamiseks kommerts- ja vabavararakendustes, edasiarendusteks jm. Korpus on allalaaditav nii META-SHARE taristu kui ka CLARINi võrgustiku kaudu.
• Korpus koostatakse andmetest mida ei ole seni kasutatud paralleelkorpuste loomiseks (ei kattu olemasolevate paralleelkorpustega DGT ja JRC Aquis).

Kontakt: keeletehnoloogia (at) tilde ee

Tegevused dokumentidega