Isiklikud vahendid
Oled siin: Algus EKKTT projektid TÜ eesti keele tesauruse (eesti wordneti) täiendamine
Navigeerimine
« Detsember 2019 »
Detsember
ETKNRLP
1
2345678
9101112131415
16171819202122
23242526272829
3031
 

TÜ eesti keele tesauruse (eesti wordneti) täiendamine

Wordnet-tüüpi tesaurus kujutab endast sõnakogu, kus sõnad (väljendid) on organiseeritud mitte tähestikuliselt, vaid mõisteliselt sisuseoseid (semantilisi seoseid) pidi. Arvutis eksisteerib tesaurus andmebaasina, kus sisaldub info nii märksõnade tähenduste kui nendevaheliste seoste kohta. 

Tuntuim ja põhimõtteline eeskuju teistele tesaurustele on Princetoni Ülikoolis loodud WordNet (WN, http://wordnet.princeton.edu/), mida loojad iseloomustavad kui “leksikaalsete viidete süsteemi, mille ülesehitus põhineb psühholingvistilisetel teooriatel inimpsüühika leksikaalsest organisatsioonist ja mälust.”(Beckwith jt 1990). Wordnet-tüüpi tesauruseid kui leksikaal-semantilisi andmebaase on maailmas loodud erinevate keelte jaoks u 50  (vt http://www.globalwordnet.org/gwa/wordnet_table.htm) ja neid luuakse veelgi, kuna tegemist on väärtusliku keeletehnoloogilise ressursiga. Keele leksikaal-semantiline andmebaas, kus lisaks sõnade tähenduste eristamisele on fikseeritud ka tähendustevahelised seosed, on oluline nii lingvistiliseks uurimistööks kui rakendusteks nagu sisupõhine infootsing, automaatne refereerimine, masintõlge, keeleõpe.
Eesti keele tesauruse loomine käivitati 1998 aastal EuroWordNeti projekti (http://www.illc.uva.nl/EuroWordNet/) käigus, kus samade põhimõtete järgi koostati 8 erineva keele tesaurused. EstWN koostamise töid tehti natuke ka pärast projekti lõppu, kuid kuna rahastamiseks eraldi projekti polnud, siis töö soikus.

Riikliku keeletehnoloogia projekti eesmärgiks on andmebaasi laiendamine, täiendamine ja täiustamine. Eesmärgiks oleme võtnud nii kvantitatiivse (tesauruse suurendamise) kui ka kvalitatiivse lähenemise, mistõttu enamus tesauruse töid tehakse käsitsi.

Eesti wordnetis on praeguse seisuga (november 2010) üle 42 000 mõiste. Tähendusüksuste vahel kehtestatakse 45 erinevat semantilist seost, nagu alam-/ülemmõisted, antonüümia, osa-terviku suhe jms. Eestikeelsed mõisted on seotud ka nende inglisekeelsete vastetega. Eesti keele tesauruse lehitsemiseks töötavad lingid http://www.cl.ut.ee/ressursid/teksaurus/ või www.keeleveeb.ee.

 

 

 

 

 

Tegevused dokumentidega