Isiklikud vahendid
Oled siin: Algus EKT projektid Eesti Wordnet'i täiendamine

Eesti Wordnet'i täiendamine

Projekti läbiviiv asutus: Tartu Ülikool

Projektijuht: Heili Orav (heili.orav@ut.ee)

Projekti vajadus ja taust

Eestis on mõistelisi sõnastikke kaks: esimene Andrus Saareste „Eesti keele mõisteline sõnaraamat” (1958–1963) ja teine Tartu Ülikoolis koostatav uuema põlvkonna arvutitesaurus Eesti Wordnet. Eeskujuks on Princetonis 1980-ndatel aastatel loodud WordNet (http://wordnet.princeton.edu/).

Eesti Wordnet kui keele leksikaal-semantiline andmebaas, kus on lisaks sõnade tähenduste eristamisele fikseeritud ka tähendustevahelised seosed, on oluline nii lingvistiliseks uurimistööks kui ka arvutilingvistilisteks rakendusteks (nt sõnatähenduste ühestamine, info-otsing, automaatne teksti kokkuvõte, masintõlge). Väärtuslikuks muudab Eesti Wordneti ka selle mitmekeelsus, sest on seotud EuroWordnet'iga (www.illc.uva.nl/EuroWordNet/), mille kaudu on Eesti Wordnetis olevad mõisted ühendatud ingliskeelse keeltevälise indeksi abil (Interlingual Index (ILI-link)) ka teiste keelte tesauruste mõistetega. Eri keelte wordnet-tüüpi leksikaal-semantilisi andmebaase on loodud üle maailma rohkem kui 50 keele jaoks ning wordnet’id on loomuliku keele rakendustes üks kasutatavamaid ressursse.

Aastatel 2011-2012 osaleti Põhjamaade projektis "META-NORD - Euroopa avatud lingvistilise infrastrukuuri Balti- ja Põhjamaade haru". Projektis oli üheks alamülesandeks eri keelte (taani, rootsi, soome, eesti) wordnettide hindamine ja nende keelte omavaheline sidumine läbi ingliskeelse wordneti. Projekti ühe tulemusena valmis WordTies (wordties.cst.dk), mis visualiseerib mõiste nii ükskeelsest wordnetist koos tema semantiliste seostega, kui ka näitab mõiste vastet teistes keeltes.

Projekt on eelnenud programmi „Eesti keele keeletehnoloogiline tugi (2006-2010)“ projekti "TÜ eesti keele tesauruse (Eesti Wordnet'i) täiendamine" sisuline ja loogiline jätk. Eelmise riikliku programmi käigus suurenes tesaurus rohkem kui 27 tuhande mõiste võrra.

Projekti eesmärgid

Projekt katab riikliku programmi "Eesti keeletehnoloogia 2011-2017" teise alaeesmärgi: Keeleressursse loovad projektid - > Semantiline andmebaas. Projekti eesmärk on suurendada ja täiendada Eesti Wordnetti kuni 70 000 mõisteni.

Projekti senised tulemused ja saavutused

Jaanuar 2014 seisuga on Eesti Wordnet'is üle 65 500 mõiste (milles on sõnu u 90 000). Semantilisi suhteid on üle 203 000.

Aastas lisandub Eesti Wordnetti ligikaudu 7000 uut mõistet. Lisaks mõistete hulga suurendamisele parandatakse ja täiendatakse ka olemasolevat.

Eesti Wordnet päringuid saab teha: www.cl.ut.ee/ressursid/teksaurus/ või www.keeleveeb.ee.

Tegevused dokumentidega