Isiklikud vahendid
Oled siin: Algus EKKTT projektid Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid
Navigeerimine
« Oktoober 2019 »
Oktoober
ETKNRLP
123456
78910111213
14151617181920
21222324252627
28293031
 

Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid

Eesti keele jaoks ei ole veel siiani keeletehnoloogilist tarkvara, mis kasutaks loomuliku keele analüüsi sügavamaid tasandeid - süntaksit ja semantikat. Käesoleva projekti raames luuakse järgmiste keeletarkvarasüsteemide prototüübid:

  • grammatikakorrektor
  • süntaksianalüüsil põhinev automaatsete sisukokkuvõtete tegija
  • süntaksianalüüsil põhinev infootsisüsteem

Nimetatud keeletarkvara prototüüpide loomiseks ja testimiseks on vaja pind- ja süvasüntaktiliselt märgendatud treening- ja testkorpusi, mis sisaldavad erinevatesse tekstiliikidesse kuuluvaid tekste (ilukirjandus, ajakirjandus, juriidiline keel, teaduskeel, suuline kõne). Seejuures grammatikakorrektori arendamiseks on vaja nii grammatiliselt korrektsete tekstide korpust kui grammatiliselt vigastest lausetest koosnevat korpust (viimane peaks sisaldama esinduslikku valimit inimeste poolt tehtavatest grammatikavigadest). Treening- ja testkorpused, mida kasutatakse süntaksianalüüsipõhise keeletarkvara arendamiseks, peavad olema

  • pindsüntaktiliselt märgendatud (märgendatud iga sõna süntaktiline funktsioon lauses)
  • süvasüntaktiliselt märgendatud (iga lause kohta konstrueeritud süntaksipuu, mille tulemusena moodustub nn. süntaksipuude pank)

Pindsüntaktiliseks analüüsiks kasutatakse olemasolevat eesti keele kitsenduste grammatika süntaksianalüsaatorit (autorid K. Müürisep ja T. Puolakainen). Kuna automaatanalüüsi tulemus ei ole ega saagi olla 100 % ühene, siis peab analüüsitud tekstid läbi vaatama ja korrigeerima arvutilingvisti haridusega inimene.
Eesti keele süntaksipuude panga märgendus peaks olema ühilduv või teisendusrelatsioonis  Põhjamaade paralleelpuudepanga märgendamiseks valitava formalismiga, et oleks võimalik kasutada mujal välja töötatud tarkvaralisi vahendeid puudepanga loomiseks ja kasutamiseks, näiteks päringu- ja visualiseerimisvahendeid.

 

2007. aastaks on loodud rakendusprogrammidest sisukokkuvõtja prototüüp.

Loomisel on grammatikakorrektor.

 Loodud korpuste näited:

pindsüntaktiliselt märgendatud korpus
puudepank

Tegevused dokumentidega