Isiklikud vahendid
Oled siin: Algus EKKTT projektid Eesti keele koondkorpuse esituse ja kasutusvõimaluste arendamine
Navigeerimine
« Oktoober 2019 »
Oktoober
ETKNRLP
123456
78910111213
14151617181920
21222324252627
28293031
 

Eesti keele koondkorpuse esituse ja kasutusvõimaluste arendamine

Eesmärk


Korpusekogumise projekt "Eesti keele koondkorpus" lõppes 2009. aastal. Selle tulemusena on valminud ligi 250 miljoni sõnaline avalikult vabalt kasutatav kirjaliku eesti keele kogu.

Praegune, käimasolev projekt ühendab endas mitut ülesannet, mille ühiseks eesmärgiks on Koondkorpuse täiustamine ja tema kasutusvõimaluste laiendamine.

Kestus


2010

Ülesanded

 

1) Koondkorpust koguti küllaltki pika aja jooksul ja sellest tingitud ebaühtlused märgenduses ja kodeeringutes ühtlustati projekti viimasel, 2009. aastal. Koondkorpuse koostamise aastate jooksul on aga muutunud ka standardid; kõige levinumaks märgenduskeeleks on meie korpuses kasutatava SGML asemel saanud XML. Samuti on meie korpuses kasutatava ASCII kooditabeli + olemite (entities) süsteemi asemel standardkooditabeliks saanud UTF-8.

Projekti esimeseks ülesandeks ongi planeeritud üleminek UTF-8-le ja XML-keelele.

Terve korpuse teisendamine ühelt formaalselt kujult teisele on asi, mida ilmselt tuleb ühe korpusega teha korduvalt, sest paraku tekivad aina  uued standardid ja neile toetuv tarkvara. Seega võiks meie projekti kogemus sellisest teisendamisest olla väärtuslik ka keeletehnoloogilise oskusteabena.

2) Koondkorpusele saab esitada päringuid sõnavormi, stringi ning regulaaravaldise põhjal (www.cl.ut.ee/korpused/kasutajaliides); korpuse morfoloogiliselt märgendatud variandile saab Keeleveebis esitada päringuid ka algvormi ning grammatiliste kategooriate alusel (www.keeleveeb.ee). Vastuseks päringule saab päritavat stringi sisaldava lause, st konkordantsi. Korpuste kasutamisel lingvistilise materjali allikana on aga levinud veel teinegi materjali hankimise ja esitamise viis, nimelt kollokatsioonide leidmine. Kollokatsiooni all mõeldakse siin selliseid sõnavorme (või ka lemmasid), mis esinevad tekstis koos (st esinevad üksteise naabruses) sagedamini kui võiks eeldada nende eraldisesinemise sageduste põhjal (kuid nt leksikograafias mõistetakse kollokatsiooni all midagi muud). Tüüpilised kollokatsioonid on näiteks eesti keele ühendverbid.

Käesoleva projekti raames tahame Koondkorpuse kasutajaliidesele lisada kollokatsioonide leidja esialgse versiooni. Selleks on vaja ära teha teoreetiline eeltöö. Nimelt on praegu teada üle 80 erineva kollokatsioonide arvutamise aluseks oleva sõnadevahelise seose tugevuse mõõdiku (vt nt http://ufal.mff.cuni.cz/~pecina/publications/acl-2005.pdf). Nende hulgast just eesti keelele ja just nendele kollokaatidele (tekstisõnad vs algvormid; erinevatesse sõnaliikidesse kuuluvad kollokaadid) kõige sobivamate väljavalimine on omaette ülesanne, kusjuures arvestada tuleb ka seose tugevuse mõõdiku arvutil realiseerimise lihtsust/keerukust.

3) Koondkorpuses on 22 miljonit sõna nn uue meedia keelekasutust (jututoad, kommentaarid, uudisgrupid, foorumid). Kui muud Koondkorpuse tekstid on automaatselt morfoloogiliselt märgendatud ja tänu sellele saab neile Keeleveebis esitada päringuid algvormi ja grammatilise kategooria põhjal, siis uue meedia tekste praeguseks morfoloogiliselt märgendatud ei ole, kuna nende tekstide leksika, ortograafia ja kohati ka morfoloogia on normeeritud kirjakeelest niivõrd erinevad, et kirjakeele analüüsiks loodud morfoloogiline analüsaator ja ühestaja t3mesta teeb nende analüüsil liiga palju vigu. Näiteks jututubade tekstide analüüsil ilma oletamiseta jäi 37% jooksvatest sõnadest tundmatuks. Käesoleva projekti kolmandaks ülesandeks ongi morfoloogiaanalüsaatori kohandamine uue meedia keelekasutuse töötlemiseks.

Vt projektiga seonduva ettekande slaide EKKTT 3. konverentsilt siit

 

Tegevused dokumentidega