Isiklikud vahendid
Oled siin: Algus EKT projektid Eesti-prantsuse paralleelkorpus

Eesti-prantsuse paralleelkorpus

 Projekti eesmärgid ja metoodika

 Projekti (2011–2012) algsed eesmärgid olid:

1) viia lõpule eesti-prantsuse paralleelkorpus ja täiendada korpuse veebiliidest (http://corpus.estfra.ee );

2) liita korpus masintõlkesüsteemiga;

3) uurida võimalusi korpuse kasutamiseks keeleõpperakendustes.

Programmi raames saadud vahenditest osutus võimalikuks rahastada ainult esimest eesmärki.

Korpus on joondatud lausete tasandil. Kirjandus- ja humanitaaralaste tekstide joondamiseks kasutasime joondamisprogrammi Hunalign. Automaatse joondamise kvaliteedi parandamiseks koostasime eesti-prantsuse elektroonilise abisõnastiku, mida täiendasime Estmorfi abil automaatselt genereeritud muutevormidega. Käsitsi on parandatud automaatjoondamise vead. Euroopa Parlamendi arutelude tekstid joondasime täisautomaatselt Gargantua-nimelise joondamisprogrammiga.

Kõik tekstid on morfoloogiliselt märgendatud ja ühestatud. Märgendamisel on kasutatud järgmist tarkvara: Estmorf eesti keele morfoloogiliseks analüüsiks, TreeTagger prantsuse keele morfoloogiliseks analüüsiks.

Tekstid on varustatud bibliograafiliste viidetega ja statistikaga tekstide mahu kohta.

Saavutatud ja oodatavad tulemused

Aastatel 2011 ja 2012 oleme korpust täiendanud 59 miljoni sõne võrra.

Praeguse seisuga sisaldab korpus 61 miljonit sõnet, mis jagunevad järgmiselt :

1) eesti ilukirjandus (3 miljonit)

2) prantsuse ilukirjandus (1,2 miljonit),

3) eesti humanitaaralased tekstid (132 000),

4) prantsuse humanitaaralased tekstid (715 000),

5) Euroopa Liidu seadusandlus (26,3 miljonit)

6) Euroopa Parlamendi istungid (28,2 miljonit)

7) Piibel (1,4 miljonit)

Lähinädalatel lisame veel 4 miljonit sõnet ilukirjanduslikke või humanitaaralaseid tekste, nii et aasta lõpuks peaks sõnede arv kasvama 65 miljonini, mis jääb korpuse lõplikuks mahuks.

2012. a. lõpuks täiendame kasutajaliidese järgmiste uuendustega:

1. Iga eesti lemma/sõnavormi otsingu puhul pakub kasutajaliides ülevaadet selle lemma/sõnavormi kollokatsioonidest.

2. Iga eesti või prantsuse lemma otsingu puhul pakub kasutajaliides nimekirja kõige tõenäolisematest tõlkevastete kandidaatidest.

3. Kasutajal on võimalik näha iga tekstilõigu eelnevaid ja järgnevaid lõike (maksimaalselt 2 lõiku) nii prantsuse kui ka eesti keeles.

 

Projekti ettekanne EKT2012 konverentsil.

Tegevused dokumentidega