Isiklikud vahendid
Oled siin: Algus EKT projektid Vahendid teksti mitmekihiliseks märgendamiseks (rakendatuna Koondkorpusele) Sõltuvussüntaktiliselt käsitsi analüüsitud korpus

Sõltuvussüntaktiliselt käsitsi analüüsitud korpus

Korpuse kirjeldus ja pakitud korpus allalaadimiseks

CG sõltuvussüntaktiliselt analüüsitud korpus 2013. aasta lõpu seisuga

korpus ise on siin


Selles korpuses on sõltuvussüntaktiliselt analüüsitud eestikeelsed tekstid, kokku umbes 343 600 sõna 25 643 lauses. Tekstid on pärit eesti keele Tasakaalus korpusest
http://www.cl.ut.ee/korpused/grammatikakorpus/ ja Koondkorpusest http://www.cl.ut.ee/korpused/segakorpus/ ning jagunevad ilukirjanduse, ajakirjanduse, teaduse ja
populaarteaduse tekstiklasside vahel, täpsemalt vt pakitud kaustas sisalduvast korpuse kirjeldusest.
Tekstid on esmalt analüüsitud reeglipõhise, kitsenduste grammatikal (CG, Constraint Grammar) põhineva sõltuvussüntaktilise analüsaatoriga; automaatselt analüüsitud faile on parandatud käsitsi, järgides pindsüntaktilise märgendamise juhendit siin http://math.ut.ee/~kaili/papers/syntax.html#Kjuhend ja sõltuvussüntaktilise märgendamise juhendit, mis sisaldub samuti pakitud kaustas.
Kooditabel on utf8.

Korpuse tekstinäide:
"<s>"
"<Feministid>"
"feminist" Ld S com pl nom cap @SUBJ #1->2
"<tõstavad>"
"tõst" Lvad V main indic pres ps3 pl ps af <FinV> <NGP-P> @FMV #2->0
"<pead>"
"pea" Ld S com sg part @OBJ #3->2
"<ja>"
"ja" L0 J crd CLB @J #4->7
"<mõned>"
"mõni" Ld P pl nom @SUBJ #5->7
"<neist>"
"tema" Lst P pers ps3 pl el @<NN #6->5
"<räägivad>"
"rääki" Lvad V main indic pres ps3 pl ps af <FinV> <Part-P> <El> @FMV #7->2
"<,>"
"," Z Com CLB #8->8
"<et>"
"et" L0 J sub @J #9->11
"<naistele>"
"naine" Ltele S com pl all @ADVL #10->11
"<pole>"
"ole" L0 V main indic pres ps neg <FinV> <Intr> @FMV #11->7
"<mehi>"
"mees" L0 S com pl part @SUBJ #12->11
"<üldse>"
"üldse" L0 D @ADVL #13->11
"<vaja>"
"vaja" L0 D @ADVL #14->11
"<.>"
"." Z Fst #15->15
"<s>“
Tekst jookseb ülevalt alla, ühel real on „< ja >“ vahel tekstisõna; järgmisel, tabulaatoriga algaval real jutumärkide vahel algvorm e lemma, L järel morfoloogilised tunnused ja lõpud, seejärel
sõnaliigi ning sõnavormis kodeeritud grammatiliste kategooriate märgendid. Morfoloogiliste märgendite loendi leiab siit: http://www.cl.ut.ee/korpused/morfliides/seletus
Pane tähele, et alakriipsud sõnaliigi märgendi ümber selle korpuse märgenduses puuduvad.

Morfoloogilisele märgendile järgneb @-ga algav süntaktilise funktsiooni märgend, mille loendi leiab märgendusjuhendi algusest. Morfoloogilise ja süntaktilise märgendi vahel võib olla
kolmnurksulgude vahel süntaksianalüsaatori abiinfot, nt <FinV> - finiitne verbivorm ja <Intr> - intransitiivne verb. Pindsüntaktilisele märgendile järgneb # järel sõna järjekorranumber lauses ning -> järel tema „ülemuse“, st peasõna number.

<s> tähistab lause algust ja </s> lause lõppu.

Tegevused dokumentidega