Personal tools

Projekti ülevaade

Automaatne süntaktiline analüüs on vajalik paljudele keeletehnoloogilistele rakendustele, alustades automaatsest grammatikavigade tuvastajast ning lõpetades dialoogsüsteemide ja masintõlkega. Süntaktilise analüüs mõiste on väga lai, kuid eesti keele kontekstis hõlmab see traditsiooniliselt lauseliikmete funktsiooni kindlaksmääramist. Vähem tuntud on morfoloogilise ühestamise seostamine süntaktilise analüüsiga: sõna kontektsi sobiva morfoloogilise tõlgenduse valimine kõigi võimalike seast (nt kas ilma on nimi-, määr- või kaassõna). Inimene teeb seda kuulates või lugedes instinktiivselt, kuid algoritmiliselt on see küllaltki keeruline probleem. Eesti keele jaoks on loodud nii pindsüntaktiline analüsaator kui ka reeglipõhine morfoloogiline ühestaja. Pindsüntaktiline analüsaator leiab 90protsendilise täpsusega iga sõna süntaktilise funktsiooni lauses, kuid ei leia sõnade omavahelisi täpseid seoseid ega lausestruktuuri. Nt. eestäiendina esinev sõna saab küll eestäiendi märgendi, kuid ei täpsustata, millist sõna ta täiendab. Pindsüntaktilise analüüsi reeglid arvestavad nii kirjaliku kui suulise keelega, esimesed katsed on tehtud ka murdekeelsete tekstidega. Morfoloogilise ühestaja reeglid on loodud ainult kirjaliku keele automaatse analüüsi jaoks.

 

Projekti eesmärgiks on olemasolevale morfoloogilisele ühestajale ja pindsüntaktilisele analüsaatorile tuginedes luua:

  1. Grammatikakorrektori tööversioon: kohandada grammatikareegleid mittekorrektse sisendi analüüsiks, kirjutada tüüpiliste grammatikavigade tuvastamise reegleid, püüda luua liides andmevahetuseks mõne vabavaralise tekstiredaktori grammatikakorrektori liidesega.
  2. Suulise keele süntaksianalüsaatori arendamine: kohandada morfoloogilise ühestamise reeglid suulise keele ühestamiseks. See võimaldab poolautomaatselt analüüsida suulise keele korpust ning teha katsetusi automaatse kõnetuvastuse väljundi edasise analüüsiga.
  3. Murdetekstide süntaktiline analüüs. esialgsed katsed on näidanud, et suulise keele pindsüntaktilist analüsaatorit on kerge kohandada murdekorpuse tekstide pindsüntaktiliseks märgendamiseks (mitmesus 10%, vigu 3-5%).
  4. Interneti keele (uue meedia keele) süntaktiline analüüs: kombineerides suulise ja kirjaliku keele analüsaatorit ning lisades internetis kasutatava keele omapära arvestavad reeglid on võimalik internetis leiduvaid spontaanseid tekste (foorumid, kommentaarid, Skype'i vestlused, jututoad) automaatselt analüüsida.
  5. Õppijakeele süntaktiline analüüs: grammatikakorrektori arendamisega samaaegselt on võimalik luua eesti keelt võõrkeelena kõnelejate tüüpvigade tuvastajat.
  6. Sügavamate sõltuvusseoste tuvastamine: luua grammatika, mis püüab leida sõnadevahelised grammatilised seosed ilmutatult. See on vajalik sügavamat süntaktilist analüüsi vajavate rakenduste loomiseks ning ka semantiliseks analüüsiks.

 

Projektis kasutatav ja edasiarendatav tarkvara on vabavaraline (vt http://beta.visl.sdu.dk/constraint_grammar.html

), samasugust tehnoloogiat kasutatakse Lõuna-Taani ülikoolis taani ja portugali keele, Oslo ülikoolis norra keele ja Tromsø ülikoolis saami keele analüüsil.