Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid
Eesti keele jaoks ei ole veel siiani keeletehnoloogilist tarkvara, mis kasutaks loomuliku keele analüüsi sügavamaid tasandeid - süntaksit ja semantikat. Käesoleva projekti raames luuakse järgmiste keeletarkvarasüsteemide prototüübid:
- grammatikakorrektor
- süntaksianalüüsil põhinev automaatsete sisukokkuvõtete tegija
- süntaksianalüüsil põhinev infootsisüsteem
Nimetatud keeletarkvara prototüüpide loomiseks ja testimiseks on vaja pind- ja süvasüntaktiliselt märgendatud treening- ja testkorpusi, mis sisaldavad erinevatesse tekstiliikidesse kuuluvaid tekste (ilukirjandus, ajakirjandus, juriidiline keel, teaduskeel, suuline kõne). Seejuures grammatikakorrektori arendamiseks on vaja nii grammatiliselt korrektsete tekstide korpust kui grammatiliselt vigastest lausetest koosnevat korpust (viimane peaks sisaldama esinduslikku valimit inimeste poolt tehtavatest grammatikavigadest). Treening- ja testkorpused, mida kasutatakse süntaksianalüüsipõhise keeletarkvara arendamiseks, peavad olema
- pindsüntaktiliselt märgendatud (märgendatud iga sõna süntaktiline funktsioon lauses)
- süvasüntaktiliselt märgendatud (iga lause kohta konstrueeritud süntaksipuu, mille tulemusena moodustub nn. süntaksipuude pank)
Pindsüntaktiliseks analüüsiks kasutatakse olemasolevat eesti keele kitsenduste grammatika süntaksianalüsaatorit (autorid K. Müürisep ja T. Puolakainen). Kuna automaatanalüüsi tulemus ei ole ega saagi olla 100 % ühene, siis peab analüüsitud tekstid läbi vaatama ja korrigeerima arvutilingvisti haridusega inimene.
Eesti keele süntaksipuude panga märgendus peaks olema ühilduv või teisendusrelatsioonis Põhjamaade paralleelpuudepanga märgendamiseks valitava formalismiga, et oleks võimalik kasutada mujal välja töötatud tarkvaralisi vahendeid puudepanga loomiseks ja kasutamiseks, näiteks päringu- ja visualiseerimisvahendeid.
2007. aastaks on loodud rakendusprogrammidest sisukokkuvõtja prototüüp.
Loomisel on grammatikakorrektor.
Loodud korpuste näited: