Projekti kirjeldus
Projekti eesmärgiks on koondada senised korpuse märgendamiseks kasutatud tarkvaraprototüübid ühtseks standardiseeritud programmide koguks ning nende abil muuta eesti keele Koondkorpus mitmetasandiliselt (morfoloogiliselt, süntaktiliselt, semantiliselt) märgendatud korpuseks.
Projektijuht Kadri Muischnek, e-post: Kadri.Muischnek@ut.ee
Projekti läbiviiv meeskond: Tiina Puolakainen, Kaili Müürisep, Riin Kirt, Raigo Kodasmaa, Katrin Tsepelina, Eleri Aedmaa, Dage Särg, OÜ Filosoft alltöövõtjana
Projekti vajadus ja taust: projekt ühendab endas lõppenud riikliku programmi „Eesti keele keeletehnoloogiline tugi“ projektide „Eesti keele koondkorpus“, „Eesti keele sõltuvusgrammatika arendamine ja osaliselt mittekorrektse eestikeelse teksti morfoloogiline ühestamine ja süntaktiline analüüs“, „Korpusepäring Keeleveebis“ ja osaliselt „Lihtlause semantiline analüüs“ tulemuste edasiarendamist.
Projekti eesmärgid: projektil on kaks alameesmärki:
1) luua stabiilselt töötavad versioonid olemasolevatest tarkvaraprototüüpidest. Selleks testitakse olemasolevat tarkvara erinevat tüüpi tekstidel, seejuures ilmnevad vead, puudused ja iseärasused parandatakse ja/või dokumenteeritakse. Kaardistatakse ka teoreetilised ja praktilised probleemid, millele prototüüpe luues ei osatud piisavalt tähelepanu pöörata.
2) olemasoleva keeleressursi - Koondkorpuse - täiustamine ja selle kasutusvõimaluste avardamine. Prototüüpide testimise käigus lisatakse korpusele mitu märgenduskihti. Täiustatakse Koondkorpuse kasutajaliideseid ning esitatakse valmis kujul korpuse leksikaalsete ja grammatiliste kategooriate statistilise analüüsi tulemused.
Projekti senised tulemused
Tulemused 2013
Kitsenduste grammatika (CG) morfoloogilise ühestajaga märgendati Koondkorpuse uus versioon Morfoloogiliselt ühestatud Koondkorpus
Kitsenduste grammatika (CG) pindsüntaktilise analüsaatoriga märgendati Tasakaalus korpuse uus versioon Pindsüntaktiliselt analüüsitud Tasakaalus korpus (145 MB)
Kitsenduste grammatika (CG) sõltuvussüntaktilise analüsaatoriga märgendati Tasakaalus korpus S6ltuvussüntaktliselt analüüsitud Tasakaalus korpus (190 MB)
Siit saab lugeda nende automaatse märgendamise tulemuste detailset analüüsi.
Sõltuvussüntaktiliselt käsitsi märgendatud korpuse suurus on nüüd 343 600 sõna. Siit leiab korpuse kirjelduse ja pakitud korpuse allalaadimiseks (3,7 MB)
Maltparseri beetaversioon
Kollokatsioonide tuvastaja https://korpused.keeleressursid.ee/clc/ võimaldab leida kollokatsioone nii Tasakaalus korpusest, Koondkorpusest kui ka eraldi selle allosadest.
Koostati Tasakaalus korpuse sagedasemate/olulisemate kollokatsioonide pingeread
Tulemused 2012
Morfoloogiline ja süntaktiline analüüs
Integreeriti kitsenduste grammatikal (CG) põhinevad morfoloogiline ühestaja ja süntaksianalüsaator. Viimane on kohandatud ka statistilise morfoloogilise ühestaja väljundile, st töötab nüüd mõlema eesti keele jaoks olemasoleva morfoloogilise ühestaja väljundiga.
CG süntaksianalüsaator adapteeriti EKI morfanalüsaatori väljundile,st töötab nüüd mõlema eesti keele jaoks olemasoleva morfoloogiaanalüsaatori väljundiga.
Täiustati jätkuvalt CG sõltuvussüntaktilise analüsaatori reegleid.
Märgendati morfoloogiliselt kogu Koondkorpus ja pindsüntaktiliselt Tasakaalus korpus (Koondkorpuse 15 miljoni sõnaline allosa).
Käsitsi sõltuvussüntaktiliselt märgendatud puudepanga loomine.
Praktiline semantiline analüüs
Loodi programm nime- ja numbriüksuste märgendamiseks, mis märgistab tekstis isikud, kohad, aadressid, organisatsioonid, suurtähelised lühendid e.akronüümid, telefoninumbrid, hinnad, kogused, mitut liiki registreerimisnumbrid ning ajaväljendid.
Semantiline märgendus on lisatud ka Keeleveebi (www.keeleveeb.ee) kaudu kasutatavale Koondkorpuse versioonile.
Tekstiliigi automaatse tuvastamise eeltööd
Tasakaalus korpuse põhjal on koostatud sõnavormide ja lemmade sagedusloendid allkorpuste kaupa, vt lähemalt http://www.cl.ut.ee/ressursid/sagedused1/
Koondkorpuse enda ja tema kasutusvõimaluste edasiarendamine
Täiustati kollokatsioonide tuvastajat, mis nüüd võimaldab otsida osalauses esinevate sõnavormide või lemmade koosesinemisi. Nii sisestava lemma või sõnavormi kui ka otsitavate kollokaatide ringi saab piirata nende sõnaliigilise kuuluvusega.