Isiklikud vahendid
Oled siin: Algus EKKTT projektid VAKO - Eesti vahekeele korpuse keeletarkvara ja keeletehnoloogilise ressursi arendamine
Navigeerimine
« Jaanuar 2021 »
Jaanuar
ETKNRLP
123
45678910
11121314151617
18192021222324
25262728293031
 

VAKO - Eesti vahekeele korpuse keeletarkvara ja keeletehnoloogilise ressursi arendamine

 

 

Tallinna Ülikooli eesti vahekeele korpus  

(http://evkk.tlu.ee) ehk õppijakeele korpus on eesti keele kui teise keele ja võõrkeele kirjalike tekstide kogu, mis kuulub elektroonsete keeleressursside alla. Korpus on loodud Tallinna Ülikoolis arendatava vabavaralise veebitarkvara baasil. Korpuse lähtekood on jagatav BSD litsentsi alusel, mis ei näe ette piiranguid tarkvara kasutuses. Korpuse kasutajaliides võimaldab seada eri tasandi kasutajatele erinevaid juurdepääsupiiranguid, kuid suures osas on korpuse funktsionaalsused vabalt kasutatavad. Korpusel on oma konkordantsileidja, sõna- ning vormisageduse statistika. Õppijakeele vealiigituse aluseks on lingvistiline taksonoomia (leksikaalsed, leksikaalgrammatilised, morfonoloogilised, morfoloogilised, morfosüntaktilised, süntaktilised, kommunikatiivsed). Iga vealiigi all on rohkem või vähem rikkalik alamliigituste hierarhia. Korpuses vealiigimärgendus on tehtud käsitsi (1 märgendaja),  vealiike saab vaadata ja alla laadida nii kitsamas kontekstis kui terviktekstis. Kasutajaliides võimaldab teha erinevaid otsinguid korpuse metainfo kohta (teksti koostaja sugu, emakeel, kodune keel, vanus jne ning teksti kohta - maht sõnedes, tekstiliik, üldine vigade hulk tekstis, nende esinevus vealiigiti jne), sidudes metateabe lingvistiliste andmetega.

I. VAKO-projekti põhieesmärgid: 1) olemasolevat keeletarkvara arendades luua EVKK automaatseks töötlemiseks sobivad tarkvararakendused, mis võimaldavad korpuse tekstide käsitsimärgendamiselt üle minna poolautomaatsele; selleks on vaja vealeidja prototüüpi, mis sisaldaks  morfo- ja süntaksianalüsaatorit ja lähtuks vealiigi määramisel korpuse lingvistilisest veataksonoomiast; 2) EVKK funktsionaalsuste laiendamine: a) õppijakeele elektroonse sõnastiku koostamine, mis sisaldab lemmasid ja välja  on toodud kõikide lemmade õiged ja valesti moodustatud või kirjutatud vormid, ja EVKK sagedussõnastik (üldine ja tähestikuline); b) vealiikide märgendusmooduli täiustamine.


Tulemused:

1. On loodud sõnajärje vealeidja prototüüp, mis integreeritud EVKK-sse. Prototüübi graafiline liides on valmimisjärgus. Sõnajärje vealeidja aluseks on eesti keele süntaksianalüsaator, mis on implementeeritud korpusesse. Prototüübi puhul on tegu statistikapõhise programmiga, milles kasutatud programmeerimiskeelt  Python.  Programm testib sõnajärje seisukohalt oluliste lauseliikmete järgnevusi ehk järjendeid esimeses osalauses ja lihtlauses: verbi märgendid @FMV (finiitne verb), @IMV (infiniitne verb), @FCV (olema liitaegades ning modaalverbid ahelverbides, finiitne vorm), @ICV (olema liitaegades ning modaalverbid ahelverbides, infiniitne vorm), @NEG (verbi eitus) ja lause põhja märgendid @SUBJ (alus ehk subjekt ), @OBJ (sihitis ehk objekt), @PRD (öeldistäide ehk predikatiiv), @ADVL (määrus ehk adverbiaal, sh fraasiadverbiaal). Nt: lauseliikmete järjend Internetis (@ADVL) on (@FMV) võimalik (@PRD) kasutada (@SUBJ) mitmeid (@NN>) teenuseid (@OBJ) ja sellele vastav sõnajärjemall [‘@ADVL’, ‘@FMV’, ‘@PRD’, ‘@SUBJ’, ‘@OBJ’]. Sama algusmärgendiga korduvad sõnajärjemallid moodustavad erineva sagedusega ilmnevaid sõnajärjemustreid, mis paigutatakse andmepuusse. Eesti keelele omaseim andmepuu sisaldab sõnajärjemustreid, mis algavad märgendiga @SUBJ: '@SUBJ' '@FMV' '@ADVL'  '@ADVL  jne. Sõnajärje vealeidja prototüübi töö tulemuslikkus on esialgu 87,82%.

2. Õppijakeele elektroonse sõnastiku aluseks on oletaja-lemmatiseerija (veakindel lemmatiseerija), mis võimaldab teha vormimoodustus- ja ortograafiavigade analüüsi ning automaatselt määrata õppija keeleoskustaset iseloomustavaid morfoloogilisi jooni. Selle põhikomponentideks on ligikaudne õigekirjakorrektor, mis püüab vigaselt kirjutatud sõnu parandada kuni lemma täpsuseni ja ESTMOR-i lemmatiseerija. Õigekirjakorrektori töö baseerub Levenshteini kaugusel (Nt: kantsid vs kandsid > t asendada d-ga > kaugus = 1; igasugulased vs igasugused > kustutada l ja a > kaugus = 2) ning foneetilisel algoritmil Metaphone, mis moodustab iga sõna jaoks hääldusest ainult kõige olulisemat sisadava kuju. Õigekirjakorrektori referentssõnastik on moodustatud esialgu Eesti Ekspressi korpuse alusel (7,2 miljonit sõnavormi), mida töödeldi Metaphone algoritmiga, et jagada sõnad häälduussarnasuse järgi klassidesse. Õppijakeele vigastele sõnakasutustele leiti samuti häälduskuju, arvutati Levenshteini kaugused vigase sõna ja sama häälduskujuga sõnade vahel referentssõnastikus ning  leiti suurima tõenäosusega kandidaat nende sõnade hulgast, mille kaugus on maksimaalselt 2. Oletaja-lemmatiseerija teeb valikud otsustuspuude abil kirjavahemärkide, mittesõnade, pärisnimede ja ühetähenduslike sõnade jaoks. Mitmesuste lahendamisel tugineb tõenäosuste arvutamisele. Oletaja-lemmatiseerija tööd võrreldi ESTMORF-i abil saadud tulemustega. Kui arvata sisse kirjavahemärkide äratundmine, siis ületas oletaja-lemmatiseerija ESTMORF-i 23,8%, kirjavahemärke arvestamata 3,2%. Suurim raskus on määrsõnade (_D_), pre- ja postpositsioonis kasutatud kaassõnade (_K_) ja verbi juurde kuuluva sõna (_X_) eristamine.

Õppijakeele elektroonne sõnastik näitab lemmasid, sagedussõnastik eesti õppijakeele sõnavormide tekstisagedust.

3. Uus vealiikide märgendusmoodul: erinevalt vanast vealiikide märgendamisest võimaldab uus moodul parandada erinevate märgendajate vigu ning lisada uusi vealiigimärgendeid, kusjuures kõik ühele sõnale lisatud vealiigid on liidese kasutajale nähtavad.

Järgnevad tegevused: oletaja-lemmatiseerija vigade parandamine; programmi integreerimine õppijakeele korpusesse ja veebiliidese abil kättesaadavaks tegemine; oletaja-lemmatiseerija integreerimine sõnajärje vealeidjaga, mille tulemusel prototüüp analüüsib kõiki õigekirja- ja vormivigu sisaldavaid lauseid ja avardab oluliselt prototüübi rakendusvõimalusi (nt aitab tuvastada õppijakeele morfoloogia- ja sõnajärjevigu, määrab kindlaks keeleoskustasemeid iseloomustavad lingvistilised mustrid). Uue veamärgendusmooduli arendamine keeleõppija kirjutatud tekstide automaatanalüüsi vahendiks. Kavandatavat veebiliidest saab kasutada nii keeleõppija vealiikide esiletoomiseks (pedagoogiline aspekt) kui ka õigekirjakorrektorina (laiem kasutusvaldkond). Laiendada korpuse kasutajaliidese funktsionaalsusi uutele allkorpustele.

II. VAKO-projekti põhieesmärkidega kaasnenud tegevused: 1) täiendatud on uute tekstide lisamise moodulit, mis võimaldab luua EVKK uusi alamkorpusi (mõeldud ennekõike REKK-i tekstikogude ning akadeemilise eesti keele kui K1 ja K2 alamkorpuste jaoks); 2) EVKK tekstid on üle vaadatud ja puhastatud liigsetest tühikutest, sisestaja näpuvigadest, skanneeritud tekstide puhul on sümbolid asendatud õigete kirjatähtedega, eksikombel sisse jäänud isikunimed on ära muudetud või välja jäetud, korduvad tekstid korpusest eemaldatud jm; 3) EVKK keeletehnoloogiline ressurss on suurenenud ligi 2 miljoni sõne mahus (tekstid digiteeritud, esialgu säilitatakse tekstiarhiivina).

III. Valik publikatsioone:

Metslang, Helena; Matsak, Erika 2010. Kesksete lausekomponentide järjestus õppijakeeles: arvutianalüüsi katse. – Eesti Rakenduslingvistika Ühingu aastaraamat. Tallinn: Eesti Keele Sihtasutus, 175–193.

Matsak, Erika; Metslang, Helena; Kippar, Jaagup 2010. The prototype of word order assessment at the Estonian Interlanguage Corpus. – The 2010 international conference on artificial intelligence. Las-Vegas: CSREA Press, 870–875.

Matsak, Erika; Eslon, Pille; Kippar, Jaagup 2010. Eesti keele sõnajärje vealeidja prototüübi arendamine. – Korpusuuring ja meetodid. Tallinna Ülikooli eesti keele ja kultuuri instituudi toimetised 12. Tallinn: TLÜ EKKI, 59–100.

Kaivapalu, Annekatrin 2010. Mõnede eesti sõnajärjemallide psühholingvistilisest reaalsusest. Eesti Rakenduslingvistika Ühingu Aastaraamat 6. Tallinn: Eesti Keele Sihtasutus, 103–120.

 

Sirts, Kairit; Eslon, Pille (käsikiri). Error-tolerant lemmatizer of Estonian interlanguage corpus (EIC).

Eslon, Pille 2010. Muutustest eesti keele grammatiliste käänete kasutamisel. – Lähivõrdlusi. Lähivertailuja 19, 38–60.  

Eslon, Pille 2010. Suundumustest eesti keele grammatiliste käänete kasutuses. – Korpusuuring ja meetodid. Tallinna Ülikooli eesti keele ja kultuuri instituudi toimetised 12. Tallinn: TLÜ EKKI, 7–36.

Eslon, Pille; Õim, Katre 2010. Objektikäänete kasutamisest sageduse ja markeerituse seisukohalt. – Eesti ja soome-ugri keeleteaduse ajakiri, 1–2, 69–89.

Eslon, Pille; Õim, Katre; Kaivapalu, Annekatrin; Argus, Reili; Matsak, Erika 2010. Kuidas uurida esimese ja teise keele omandamist? – Lähivõrdlusi. Lähivertailuja, 20, 11–48.

Eslon, Pille; Matsak, Erika 2009. Eesti keele kasutusvariandid: korpusest tulenev käändevormide võrdlev analüüs. – Eesti Rakenduslingvistika Ühingu aastaraamat 5. Tallinn: Eesti Keele Sihtasutus, 79–110.

Eslon, Pille 2009. Eestikeelses tekstiloomes eelistatud konstruktsioonid ja käändevormid. –  Korpusuuringute metodoloogia ja märgendamise probleemid. Tallinn: Tallinna Ülikooli Kirjastus, 30–53. 

 

 

 

Tegevused dokumentidega