Isiklikud vahendid
Oled siin: Algus EKKTT projektid Eesti keele koondkorpus
Navigeerimine
« Detsember 2019 »
Detsember
ETKNRLP
1
2345678
9101112131415
16171819202122
23242526272829
3031
 

Eesti keele koondkorpus


PROJEKTI EESMÄRGID JA TÄHTSUS

 

Korpused ehk elektroonilised tekstikogud on keetarkvara väljatöötamisel vältimatult vajalikud. Statistikapõhiste süsteemide treenimiseks vajatakse väga suuri tekstihulki, ka reeglipõhiste süsteemide testimiseks ja keelekirjeldustes varem esitamata seaduspärasustel põhinevate reeglite kirjutamiseks vajatakse tekstikorpusi. Keelekorpus on üks põhilisi keelematerjali allikaid ka eesti keele teaduslikul uurimisel.

Projekt „Eesti keele koondkorpus“ jätkas riikliku programmi „Eesti keel ja rahvuslik mälu“ projekti „Eesti keele koondkorpus“ raames tehtud tööd.

Projekti eesmärgiks oli täita riikliku programmi „Eesti keele keeletehnoloogiline tugi“ seletuskirja punktis 3.2.1. Kirjaliku keele korpused püstitatud põhieesmärk – eesti keele koondkorpuse arendamine 200 miljoni sõnani.

See eesmärk on projekti lõppemiseks ka täidetud: Koondkorpuse maht oli 2009. aasta lõpuks ca 245 miljonit sõna.

Korpuse mahust 75% moodustavad ajalehetekstid ja ainult 2% on nii ilukirjanduse kui ka teaduse tekste. 9% korpuse mahust moodustavad nn uue meedia tekstid, st internetisuhtluse keelekasutus: jututoad, foorumid, uudisgrupid, kommentaarid.

Pidades silmas nende uurijate vajadusi, kes soovivad võrrelda kolme kirjaliku keele keskse tekstiklassi: ajakirjanduse, ilukirjanduse ja teadustekstide keelekasutust, on loodud Koondkorpuse alaosana Tasakaalus korpus, mis koosneb võrdsetes osades ilukirjanduse, ajakirjanduse ja teaduse keelest, millest igaühte on korpuses 5 miljonit sõna.

Praegu on koondkorpus märgendatud vastavalt TEI (Text Encoding Initiative) standardile ja esitatud SGML-s. Jätkuprojekt „Eesti keele koondkorpuse esituse ja kasutusvõimaluste arendamine“ on seadnud eesmärgiks ülemineku XML-le.

 

Koondkorpuse koostis:


Ajakirjandus

   
Ilukirjandus

   
Teaduskirjandus


Populaarteadus


Uus meedia


Muu

 

Kuidas seda kasutada saab

 

Korpusele saab esitada päringuid meie kasutajaliidese kaudu.

Morfoloogiliselt märgendatud korpust (st iga tekstisõna kohta on teada selle algvorm ja grammatilised kategooriad) saab kasutada Keeleveebi (www.keeleveeb.ee) kaudu.

Enamus tekste on äratõmbamiseks saadaval arvutilingvistika uurimisrühma koduleheküljel.

Segakorpuse tasakaalustatud alaosa on Tasakaalus korpus, mis sisaldab võrdses mahus ilukirjanduse, ajakirjanduse ja teaduse keelt, igaühte 5 miljonit sõna. Tasakaalus korpusel on oma kasutajaliides

 

Tegevused dokumentidega