Isiklikud vahendid

Tõenäosuslik sõltuvusparser

Maltparser on Växjö ülikoolis väljatöötatud tõenäosuslik sõltuvuspuude parser. Parser eeldab, et sisend on morfoloogiliselt analüüsitud ja ühene. Sisend ja väljund on CoNLL-formaadis.

2013. a alustati eesti keele jaoks tõenäosusliku sõltuvusparseri arendamist. Parseriks valiti Maltparser kui kõige rohkem kasutust leidnud tõenäosuslik sõltuvusparser teistele keeltele.

Koostati esialgsed konverterid  kitsenduste grammatika formaadis teksti teisendamiseks Maltparserile sobivasse CoNLL-formaati, treeniti parserit 130000-sõnalisel (sõnelisel) tekstikorpusel ning testiti 30000-sõnalisel testkorpusel. (Sõnad on siin pigem sõne tähenduses, st kirjavahemärgid ja muud sõnu asendavad sümbolid kaasa arvatud.)

Parseri tulemuste analüüs sõltus paljuski märgendite valikust.  Hetkel sobivaima märgendite konfiguratsiooniga saadi, et 85.8% sõnedest on korrektne süntaktiline märgend ja sõltuvusseos.

Kogu eksperimendi käigus koostatud dokumentatsioon, konverterid, konfiguratsioonifailid ja keelemudel on saadav siit.

 

Tegevused dokumentidega