Vahendid teksti mitmekihiliseks märgendamiseks (rakendatuna Koondkorpusele)
Projekti eesmärgiks on koondada senised korpuse märgendamiseks kasutatud tarkvaraprototüübid ühtseks standardiseeritud programmide koguks ning nende abil muuta eesti keele Koondkorpus mitmetasandiliselt (morfoloogiliselt, süntaktiliselt, semantiliselt) märgendatud korpuseks.
Projekti kirjeldus
Projekti eesmärgiks on koondada senised korpuse märgendamiseks kasutatud tarkvaraprototüübid ühtseks standardiseeritud programmide koguks ning nende abil muuta eesti keele Koondkorpus mitmetasandiliselt (morfoloogiliselt, süntaktiliselt, semantiliselt) märgendatud korpuseks.
Automaatse märgendamise kvaliteedi detailne analüüs
Esitatakse CG morfoloogilise ühestamise, pindsüntaktilise analüüsi ja sõltuvussüntaktilise analüüsi tulemuste kvaliteedi detailne analüüs.
S6ltuvussüntaktiliselt analüüsitud Tasakaalus korpus
Sõltuvussüntaktiliselt analüüsitud Tasakaalus korpus.
Sõltuvussüntaktiliselt käsitsi analüüsitud korpus
Korpuse kirjeldus ja pakitud korpus allalaadimiseks
Kollokatsioonide pingeread Tasakaalus korpuse põhjal
asuvad http://www.cl.ut.ee/ressursid/sagedased_kollokatsioonid/
CG reeglipõhise morfoloogilise ühestajaga märgendatud Koondkorpus
CG reeglipõhise morfoloogilise ühestajaga märgendatud Koondkorpuse suurus pakituna on 1,8 GB. Pärast Eesti Keeleressursside Keskuse serverisüsteemi ümberkorraldamise lõppu pannakse korpus sinna välja. Seni palume kasutada soovijatel kirjutada Kadri.Muischnek@ut.ee
Tõenäosuslik sõltuvusparser
Maltparser on Växjö ülikoolis väljatöötatud tõenäosuslik sõltuvuspuude parser. Parser eeldab, et sisend on morfoloogiliselt analüüsitud ja ühene. Sisend ja väljund on CoNLL-formaadis.