Isiklikud vahendid
Oled siin: Algus EKKTT projektid TÜ eesti keele tesauruse (eesti wordneti) täiendamine
Navigeerimine
« Oktoober 2019 »
Oktoober
ETKNRLP
123456
78910111213
14151617181920
21222324252627
28293031
 

TÜ eesti keele tesauruse (eesti wordneti) täiendamine

Wordnet-tüüpi tesaurus kujutab endast sõnakogu, kus sõnad (väljendid) on organiseeritud mitte tähestikuliselt, vaid mõisteliselt sisuseoseid (semantilisi seoseid) pidi. Arvutis eksisteerib tesaurus andmebaasina, kus sisaldub info nii märksõnade tähenduste kui nendevaheliste seoste kohta. 

Tuntuim ja põhimõtteline eeskuju teistele tesaurustele on Princetoni Ülikoolis loodud WordNet (WN, http://wordnet.princeton.edu/), mida loojad iseloomustavad kui “leksikaalsete viidete süsteemi, mille ülesehitus põhineb psühholingvistilisetel teooriatel inimpsüühika leksikaalsest organisatsioonist ja mälust.”(Beckwith jt 1990). Wordnet-tüüpi tesauruseid kui leksikaal-semantilisi andmebaase on maailmas loodud erinevate keelte jaoks u 50  (vt http://www.globalwordnet.org/gwa/wordnet_table.htm) ja neid luuakse veelgi, kuna tegemist on väärtusliku keeletehnoloogilise ressursiga. Keele leksikaal-semantiline andmebaas, kus lisaks sõnade tähenduste eristamisele on fikseeritud ka tähendustevahelised seosed, on oluline nii lingvistiliseks uurimistööks kui rakendusteks nagu sisupõhine infootsing, automaatne refereerimine, masintõlge, keeleõpe.
Eesti keele tesauruse loomine käivitati 1998 aastal EuroWordNeti projekti (http://www.illc.uva.nl/EuroWordNet/) käigus, kus samade põhimõtete järgi koostati 8 erineva keele tesaurused. EstWN koostamise töid tehti natuke ka pärast projekti lõppu, kuid kuna rahastamiseks eraldi projekti polnud, siis töö soikus.

Riikliku keeletehnoloogia projekti eesmärgiks on andmebaasi laiendamine, täiendamine ja täiustamine. Eesmärgiks oleme võtnud nii kvantitatiivse (tesauruse suurendamise) kui ka kvalitatiivse lähenemise, mistõttu enamus tesauruse töid tehakse käsitsi.

Eesti wordnetis on praeguse seisuga (november 2010) üle 42 000 mõiste. Tähendusüksuste vahel kehtestatakse 45 erinevat semantilist seost, nagu alam-/ülemmõisted, antonüümia, osa-terviku suhe jms. Eestikeelsed mõisted on seotud ka nende inglisekeelsete vastetega. Eesti keele tesauruse lehitsemiseks töötavad lingid http://www.cl.ut.ee/ressursid/teksaurus/ või www.keeleveeb.ee.

 

 

 

 

 

Tegevused dokumentidega