Eesti keele koondkorpus
PROJEKTI EESMÄRGID JA TÄHTSUS
Korpused ehk elektroonilised tekstikogud on keetarkvara väljatöötamisel vältimatult vajalikud. Statistikapõhiste süsteemide treenimiseks vajatakse väga suuri tekstihulki, ka reeglipõhiste süsteemide testimiseks ja keelekirjeldustes varem esitamata seaduspärasustel põhinevate reeglite kirjutamiseks vajatakse tekstikorpusi. Keelekorpus on üks põhilisi keelematerjali allikaid ka eesti keele teaduslikul uurimisel.
Projekt „Eesti keele koondkorpus“ jätkas riikliku programmi „Eesti keel ja rahvuslik mälu“ projekti „Eesti keele koondkorpus“ raames tehtud tööd.
Projekti eesmärgiks oli täita riikliku programmi „Eesti keele keeletehnoloogiline tugi“ seletuskirja punktis 3.2.1. Kirjaliku keele korpused püstitatud põhieesmärk – eesti keele koondkorpuse arendamine 200 miljoni sõnani.
See eesmärk on projekti lõppemiseks ka täidetud: Koondkorpuse maht oli 2009. aasta lõpuks ca 245 miljonit sõna.
Korpuse mahust 75% moodustavad ajalehetekstid ja ainult 2% on nii ilukirjanduse kui ka teaduse tekste. 9% korpuse mahust moodustavad nn uue meedia tekstid, st internetisuhtluse keelekasutus: jututoad, foorumid, uudisgrupid, kommentaarid.
Pidades silmas nende uurijate vajadusi, kes soovivad võrrelda kolme kirjaliku keele keskse tekstiklassi: ajakirjanduse, ilukirjanduse ja teadustekstide keelekasutust, on loodud Koondkorpuse alaosana Tasakaalus korpus, mis koosneb võrdsetes osades ilukirjanduse, ajakirjanduse ja teaduse keelest, millest igaühte on korpuses 5 miljonit sõna.
Praegu on koondkorpus märgendatud vastavalt TEI (Text Encoding Initiative) standardile ja esitatud SGML-s. Jätkuprojekt „Eesti keele koondkorpuse esituse ja kasutusvõimaluste arendamine“ on seadnud eesmärgiks ülemineku XML-le.
Koondkorpuse koostis:
Ajakirjandus
- ajaleht «Eesti Ekspress» (7,2 miljonit sõna)
- ajaleht «Postimees» (32,9 miljonit sõna)
- ajaleht «Maaleht» (4,3 miljonit sõna)
- ajaleht «Eesti Päevaleht» (88 miljonit sõna)
- ajakiri «Kroonika» (0,6 miljonit sõna)
- ajaleht «Valgamaalane» (2,5 miljonit sõna)
- ajaleht «Lääne Elu» (1,8 miljonit sõna)
- ajaleht «SL Õhtuleht» (45,6 miljonit sõna)
- ajakiri «Luup» (1,9 miljonit sõna)
Ilukirjandus
- ilukirjandus alates aastast 1990 (5,7 miljonit sõna)
Teaduskirjandus
- doktoritööd (2,3 miljonit sõna)
- ajakiri «Eesti Arst» 2002 - 2004 (0,7 miljonit sõna)
- ajakiri «Arvutitehnika ja Andmetöötlus» (0,6 miljonit sõna)
- ajakiri «Agraarteadus» (0,3 miljonit sõna)
- teadusartiklid, artiklikogumikud (nt Emakeele Seltsi aastaraamat, Eesti Matemaatika Seltsi aastaraamat; 1,35 miljonit sõna)
- ajakiri «Akadeemia» (piiratud ligipääs, 7,2 miljonit sõna)
Populaarteadus
- ajakiri «Horisont» (0,26 miljonit sõna)
- ajakiri «Eesti Loodus» (1,2 miljonit sõna)
Uus meedia
- jututoad (ca 7 miljonit sõna)
- uudisgrupid (ca 8 miljonit sõna)
- foorumid (ca 5 miljonit sõna)
- kommentaarid (ca 2,2 miljonit sõna)
Muu
- Riigikogu stenogrammid aastatest 1995-2001 (ca 13 miljonit sõna)
- Eesti ja Euroopa seadused (vastavalt ca 1,8 miljonit ja 10 miljonit sõna)
Kuidas seda kasutada saab
Korpusele saab esitada päringuid meie kasutajaliidese kaudu.
Morfoloogiliselt märgendatud korpust (st iga tekstisõna kohta on teada selle algvorm ja grammatilised kategooriad) saab kasutada Keeleveebi (www.keeleveeb.ee) kaudu.
Enamus tekste on äratõmbamiseks saadaval arvutilingvistika uurimisrühma koduleheküljel.
Segakorpuse tasakaalustatud alaosa on Tasakaalus korpus, mis sisaldab võrdses mahus ilukirjanduse, ajakirjanduse ja teaduse keelt, igaühte 5 miljonit sõna. Tasakaalus korpusel on oma kasutajaliides.