Isiklikud vahendid

Projekti kirjeldus

Projekti eesmärgiks on koondada senised korpuse märgendamiseks kasutatud tarkvaraprototüübid ühtseks standardiseeritud programmide koguks ning nende abil muuta eesti keele Koondkorpus mitmetasandiliselt (morfoloogiliselt, süntaktiliselt, semantiliselt) märgendatud korpuseks.

Asutus: Tartu Ülikool

Projektijuht Kadri Muischnek, e-post: Kadri.Muischnek@ut.ee

Projekti läbiviiv meeskond: Tiina Puolakainen, Kaili Müürisep, Riin Kirt, Raigo Kodasmaa, Katrin Tsepelina, Eleri Aedmaa, Dage Särg, OÜ Filosoft alltöövõtjana

Projekti vajadus ja taust: projekt ühendab endas lõppenud riikliku programmi „Eesti keele keeletehnoloogiline tugi“ projektide „Eesti keele koondkorpus“, „Eesti keele sõltuvusgrammatika arendamine ja osaliselt mittekorrektse eestikeelse teksti morfoloogiline ühestamine ja süntaktiline analüüs“, „Korpusepäring Keeleveebis“ ja osaliselt „Lihtlause semantiline analüüs“ tulemuste edasiarendamist.

Projekti eesmärgid: projektil on kaks alameesmärki:

 1) luua stabiilselt töötavad versioonid olemasolevatest tarkvaraprototüüpidest. Selleks testitakse olemasolevat tarkvara erinevat tüüpi tekstidel, seejuures ilmnevad vead, puudused ja iseärasused parandatakse ja/või dokumenteeritakse. Kaardistatakse ka teoreetilised ja praktilised probleemid, millele prototüüpe luues ei osatud piisavalt tähelepanu pöörata.

2) olemasoleva keeleressursi - Koondkorpuse - täiustamine ja selle kasutusvõimaluste avardamine. Prototüüpide testimise käigus lisatakse korpusele mitu märgenduskihti. Täiustatakse Koondkorpuse kasutajaliideseid ning esitatakse valmis kujul korpuse leksikaalsete ja grammatiliste kategooriate statistilise analüüsi tulemused.


Projekti senised tulemused

Tulemused 2013

Kitsenduste grammatika (CG) morfoloogilise ühestajaga märgendati Koondkorpuse uus versioon Morfoloogiliselt ühestatud Koondkorpus

Kitsenduste grammatika (CG) pindsüntaktilise analüsaatoriga märgendati Tasakaalus korpuse uus versioon Pindsüntaktiliselt analüüsitud Tasakaalus korpus (145 MB)

Kitsenduste grammatika (CG) sõltuvussüntaktilise analüsaatoriga märgendati Tasakaalus korpus S6ltuvussüntaktliselt analüüsitud Tasakaalus korpus (190 MB)

Siit saab lugeda nende automaatse märgendamise tulemuste detailset analüüsi.

Sõltuvussüntaktiliselt käsitsi märgendatud korpuse suurus on nüüd 343 600 sõna. Siit leiab korpuse kirjelduse ja pakitud korpuse allalaadimiseks (3,7 MB)

Maltparseri beetaversioon

Kollokatsioonide tuvastaja https://korpused.keeleressursid.ee/clc/ võimaldab leida kollokatsioone nii Tasakaalus korpusest, Koondkorpusest kui ka eraldi selle allosadest.

Koostati Tasakaalus korpuse sagedasemate/olulisemate kollokatsioonide pingeread

 Tulemused 2012

Morfoloogiline ja süntaktiline analüüs

Integreeriti kitsenduste grammatikal (CG) põhinevad morfoloogiline ühestaja ja süntaksianalüsaator. Viimane on kohandatud ka statistilise morfoloogilise ühestaja väljundile, st töötab nüüd mõlema eesti keele jaoks olemasoleva morfoloogilise ühestaja väljundiga.

CG süntaksianalüsaator adapteeriti EKI morfanalüsaatori väljundile,st töötab nüüd mõlema eesti keele jaoks olemasoleva morfoloogiaanalüsaatori väljundiga.

Täiustati jätkuvalt CG sõltuvussüntaktilise analüsaatori reegleid.

Märgendati morfoloogiliselt kogu Koondkorpus ja pindsüntaktiliselt Tasakaalus korpus (Koondkorpuse 15 miljoni sõnaline allosa).

Käsitsi sõltuvussüntaktiliselt märgendatud puudepanga loomine.

Praktiline semantiline analüüs

Loodi programm nime- ja numbriüksuste märgendamiseks, mis märgistab tekstis isikud, kohad, aadressid, organisatsioonid, suurtähelised lühendid e.akronüümid, telefoninumbrid, hinnad, kogused, mitut liiki registreerimisnumbrid ning ajaväljendid.

Semantiline märgendus on lisatud ka Keeleveebi (www.keeleveeb.ee) kaudu kasutatavale Koondkorpuse versioonile.

Tekstiliigi automaatse tuvastamise eeltööd

Tasakaalus korpuse põhjal on koostatud sõnavormide ja lemmade sagedusloendid allkorpuste kaupa, vt lähemalt http://www.cl.ut.ee/ressursid/sagedused1/

Koondkorpuse enda ja tema kasutusvõimaluste edasiarendamine

Täiustati kollokatsioonide tuvastajat, mis nüüd võimaldab otsida osalauses esinevate sõnavormide või lemmade koosesinemisi. Nii sisestava lemma või sõnavormi kui ka otsitavate kollokaatide ringi saab piirata nende sõnaliigilise kuuluvusega.

 

Tegevused dokumentidega