Isiklikud vahendid
Oled siin: Algus EKKTT projektid Leksikograafi töökeskkond
Navigeerimine
« Oktoober 2019 »
Oktoober
ETKNRLP
123456
78910111213
14151617181920
21222324252627
28293031
 

Leksikograafi töökeskkond

 eelex_logo Leksikograafi töökeskkonna koduleht

Eesmärgid ja tähtsus

Projektil on kolm põhieesmärki:

  1. Luua leksikograafidele sobiv interaktiivne töökeskkond e sõnastike haldussüsteem EELex, st töövahendid, mis ühilduvad kehtiva rahvusvahelise märgistusstandardiga (XML) ja rakendavad nii universaalseid kui ka eesti keele põhiseid keeletehnoloogia vahendeid: keeleressursse ja keeletarkvara.
  2. Koostada eesti lähtekeele andmebaas uute kakskeelsete sõnaraamatute jaoks ehk Eesti–X-keele sõnastik.
  3. Anda projekti tulemused avalikku kasutusse: (a) süsteemi kuuluvate sõnastike avalikud veebiversioonid, (b) sõnastike haldussüsteemi laiatarbeversioon.

Tähtsus. Leksikograafi töökeskkond EELex muudab sõnastikutöö lihtsamaks, kiiremaks ja kvaliteetsemaks. EELexis koostatud või sinna üle viidud sõnastikud on standardse märgendusega universaalsed taaskasutatavad keeleressursid, mida vajavad nii leksikograafid ja keeletehnoloogid kui ka tavakasutajad.

Ajalugu

Projekt jätkab kolme varasema projekti tööd: kaks allprojekti programmist "Eesti keel ja rahvuslik mälu":

  1. Keeletehnoloogia. Tarkvara rakendusalad: "Leksikograafi töövahendid"
  2. Tänapäeva eesti keele baassõnastikud: "Eesti–X-keele sõnastik"
  3. HTM-i projekt “Eesti keele elektroonilised õigekeelsusressursid (ÕS 2006)”

 

EELex – mis ja milleks


Iga sõnastikukoostaja, kes alustab puhtalt lehelt uut sõnaraamatut, seisab kohe silmitsi mitme olulise valikuga. Kas sisestada materjal tekstitöötlusprogrammis, et tulemus oleks kohe "nagu päris" või pidada töö käigus vajalikuks ka sisu poolelt eristada, mis on mis? Kuidas olla kindel, et kõik olulised märksõnad on olemas? Kuidas veenduda, et märksõnad on tähestiku järjekorras? Millega garanteerida, et ühelt märksõnalt teisele viidates on mõlemad ka edaspidi samal kujul olemas? Kuidas tööd jaotada, kui kaks inimest tahavad korraga sõnastikku toimetada? Kuidas eraldada sõnaraamatust ühe kitsa valdkonna terminid, et erialaspetsialist saaks need üle vaadata ja omalt poolt parandusi teha? Sõnaraamatud on mahukad ning kord langetatud otsuseid ja nende tagajärgi on hiljem väga raske muuta.

Sõnastike haldussüsteem ongi mõeldud kõikvõimaliku aega ja hoolt nõudva musta töö kaotamiseks, jättes koostajale koostaja töö sisulise poole – vastete, definitsioonide jms lisamise. EELex lahendab kõik eespool loetletud probleemid. Keskkond on veebipõhine ega piira kasutajate arvu. Koostaja näeb korraga nii artikli struktuuri kui ka sama artikli lõplikku vormistust küljendusvaates. Lihtsad tehnilised apsakad on välistatud, sest lisada ja muuta saab vaid artikli struktuuri rangelt järgides. Vormistuse, kirjavahemärkide paneku, sortimise, viitamise, ligipääsuõiguste eest artikli eri osadele ja tööetappidele jm mittesisulise poole eest hoolitseb EELex. Kui EELexi laiatarbeversioonis töö alustuseks pakutav märksõnavalik ja artiklite struktuur tegijat rahuldavad, seisneb sõnaraamatu koostamine lihtsaimal juhul vaid lünkade täitmises.

Et EELex peaks rahuldama kõiki sõnaraamatutöö tüüpvajadusi, siis lisame sinna järk-järgult uut funktsionaalsust. Koostajat huvitab alati laiem info märksõna kohta, näiteks:

  • kuidas sõna käänata või pöörata - sõnaliigi ja vormid lisab EELex automaatselt;
  • püsiühendid selle sõnaga - artiklis juba olemas, või päring muudes sõnastikes;
  • tüüpilised rektsioonid, kollokatsioonid, tüüpkasutus - vaja teha päring tekstikorpuses;
  • kas sõna on tarvituses sage - mõeldav oleks teha päring Google'is koos piiranguga 'leht leiti viimase kuu jooksul';
  • mis kujul sõna esineb muudes sõnaraamatutes - võimalusi on mitu: ühispäring veebis või EELexi-sisene ühispäring.


Senine kogemus haldussüsteemi kasutamisel on toonud pidevalt esile uusi arendamist vajavaid kohti, näiteks soov importida mõnest muust sõnaraamatust kõik kindlate tingimustega struktuuriüksused; teha sõnastikus keerulisi struktuuripõhiseid päringuid regulaaravaldistega; teha samalaadseid asendusi korraga paljudes sõnaartiklites; muuta xsl-teisendust nii, et html-väljund sobiks brauseri eelvaateks ja sisaldaks ainult kõige olulisemat infot.

Tulemused 2007 (november)

  1. Töökeskkonna arendus

    Loodud on leksikograafi töökeskkonna tuum, sõnastike haldussüsteem EELex, mis muudab sõnastike koostamise ja toimetamise lihtsamaks ja tõhusamaks. EELex on veebipõhine töövahend, mille olulisemad omadused on:

    • andmete hoidmine XML vormingus;
    • sõnastiku struktuuri esitamine XML skeemi vahendusel;
    • sõnaartiklite toimetamine XML skeemi konteksti alusel;
    • võimalus sõnaartikleid koostada ja toimetada kollektiivselt ja mitmel kasutajatasemel;
    • sõnastikuteksti esitamine mitmes eri vaates: XML vorming, tabel, küljendusvaade;
    • võimalus teha struktuuripõhiseid päringuid;
    • võimalus eksportida sõnastikutekst MS Wordi küljendusvormingusse.

    EELex-i on seni kasutatud või kasutatakse kaht tüüpi sõnastike koostamisel ja toimetamisel: (1) ükskeelsed (ÕS 2006, Kohanimed, Sõnaperede sõnastik, Leksikoloogiasektori baas) ja (2) kakskeelsed (Eesti-vene sõnaraamat, Eesti-läti sõnaraamat). Uued rakendustüübid on (3) terminoloogiasõnastik (Oxford-Duden) ja (4) Eesti-X-keele sõnastiku andmebaas. Loodud on ka nendega seotud uued funktsioonid: illustratsioonide kasutamine, andmete import muudest EELex-i ressurssidest.

    EELex.eki.ee on veel piiratud juurdepääsuga, avalikuks kasutamiseks mõeldud liides on 2008. aasta töökavas. Illustratsiooniks:

    EELex-i sõnastiku puhas töölaud

    ÕS: sõnaartikkel "rotisaba"

    Tulemuse eksport Wordi

     

  2. Eesti-X-keele sõnastiku andmebaas

    Koostatud on Eesti-X-keele sõnastiku andmebaasi (EXS) esialgne versioon:

    • koostatud keskmise mahuga (u 40 000 üksust) märksõnastik;
    • märksõnastikuga liidetud Eesti-vene sõnaraamatu eesti keele materjal;
    • alustatud EXS-i toimetamist EELex-i vahenditega;
    • ette valmistatud stiili- ja erialamärgendite andmebaas (aluseks ÕS 2006) liitmiseks EXS-iga.

     

  3. Avalik kasutus

    Loodud on ÕS 2006 avalik veebiversioon ja täiendatud selle rakendusfunktsioone:

     

Tulemused 2009 (märts)

  1. Töökeskkonna arendus
    • EELex on saanud juurde uusi funktsioone: lisatud on sõnaartikli ja sõnastiku tööriistad, uued päringuvõimalused, automaatne klaviatuurivahetus vastavalt keelele, XML failide struktuurianalüüsi vahendid.
    • Süsteemiga on integreeritud reeglipõhise morfoloogia tarkvara.
    • Lisandunud on uued rakendustüübid koos vastavate funktsioonidega: suur ükskeelne üldsõnastik ja terminoloogiasõnastikud.
    • Sõnastikurakendused. Praeguse seisuga on EELexi süsteemi kasutades valminud 4 sõnastikku, tööversioonina on leksikograafide käsutusse antud 11 sõnastiku haldussüsteemid, testimisel on 2 uue sõnastiku haldussüsteemid ja eeltöötluse faasis on 3 sõnastiku andmebaasid.
  2. Eesti-X-keele sõnastiku andmebaas
      Jätkunud on Eesti-X keele sõnastiku (EXS) edasiarendamine. Väikese mahuga kakskeelse sõnastiku tarbeks on tehtud märksõnavalik (u 20 000 üksust). Käsil on EXS-i toimetamine EELex-i vahenditega: liitsõnamaterjali toimetamine, homonüümide korrastamine jne.
  3. Avalik kasutus
    • Sõnastike veebiversioonid. Leksikograafi töökeskkonnas kehtivate XML standardite alusel on loodud avalik veebiversioon Eesti kirjakeele seletussõnaraamatust (esialgu on ligipääs parooliga, avalik sügisest). Täiendatud on Õigekeelsussõnaraamatu struktuuripõhist päringut (http://www.eki.ee/dict/QS2006.tegemisel/full.html).
    • EELexi tarkvara. Loodud on esialgne demoversioon avalikust kakskeelsest sõnastike haldussüsteemist (http://exsa.eki.ee/), mis annab kasutajale võimaluse koostada oma kakskeelne sõnastik EELexi keskkonnas.

Tulemused 2010 (jaanuar)

  1. Töökeskkonna arendus
    • Töökeskkond on saanud juurde uusi funktsioone: hulgiparandused, XML andmete eksport EELexist, kasutajaliidese täiendus: keele valik, vaate kujundamine ja genereerimine; täiendatud on traditsiooniliste sõnastike eeltöötluse vahendeid.
    • Jätkunud on reeglipõhise morfoloogiatarkvara integreerimine keskkonnaga.
    • Päringusüsteemis on loodud võimalused regulaaravaldiste, loogiliste operaatorite, sümboliklasside kasutamiseks.
    • Lisandunud on uued sõnastike rakendustüübid ning vastavad toimetamis- ja päringuvõimalused: entsüklopeedilist tüüpi võõrsõnade leksikon ja mitmekeelne etümoloogia andmebaas.
    • Sõnastikurakendused. Praeguse seisuga on EELexi süsteemis valminud (ja trükki antud või mujal kasutatud) 7 sõnastikku, tööversioonina on leksikograafide käsutuses 9 sõnastikku, testimisel on 4 sõnastikku.
    • Lisandunud uus rakendusvaldkond EELexis valminud sõnastikele – telefonisõnastikud: iPhone rakenduseks on ette valmistatud ÕS 2006.
  2. Eesti-X-keele sõnastiku andmebaas
      Jätkunud on EXS-i edasiarendamine. Suure mahuga kakskeelse sõnastiku tarbeks on tehtud märksõnavalik (u 100 000 üksust). Jätkub EXS-i toimetamine EELex-i vahenditega. EXS-i rakendusena on loodud Eesti-soome sõnastikupõhi.
  3. Avalik kasutus
    • Sõnastike veebiversioonid. Loodud on uus otsingumootor EELexis valminud sõnastike kasutamiseks veebis, aluseks struktuuripõhine päring. Valminud on avalik veebiversioon Eesti kirjakeele seletussõnaraamatust (2009): http://www.eki.ee/dict/ekss/ ja Eesti-vene sõnaraamatust (2009): http://www.eki.ee/dict/evs/. Uuendamisel on muude sõnastike veebiversioonid.
    • EELexi tarkvara. Valminud on uus versioon EELexi avalikust laiatarbesüsteemist (http://exsa.eki.ee/), mis võimaldab kasutajal veebis koostada oma sõnastikku ning (lepingu alusel) kasutada Eesti-X keele sõnastiku andmebaasi.

Kokkuvõte 2010 (november)

Projekti tulemusena on loodud veebipõhine leksikograafi töökeskkond eelex_logo (allpool EELex), mis ühendab leksikograafile vajaliku tarkvara ja keeleressursid, toetab rühmatööd ja pakub eesti keele tuge.

EELexi tarkvara on sõnastike haldussüsteem, mis võimaldab sõnastikke koostada, toimetada ja küljendada, teha lihtsaid ja keerulisi struktuuripõhiseid päringuid ning päringutulemusi sortida. Leksikograaf kasutab korraga kaht omavahel seotud tööakent, ühes sõnaartikli tekst koos struktuurimärgendusega ja teises küljendatud kujul. Toimetaja töö hõlbustamiseks on loodud mitmeid tööriistu, nt ristviidete kontroll, hulgiparandused kogu sõnastikus, eesti morfoloogia andmete genereerimine, küljendusvaate kujundus, sõnastikuteksti eksport Wordi jms. Professionaalse leksikograafi töökeskkonna baasil on selle kõrvale loodud EELexi avalik laiatarbeversioon (http://exsa.eki.ee/), mille abil saab oma sõnastiku teha veebis ka tavakasutaja.

EELexi leksikaalsed ressursid on sõnastike haldussüsteemis koostatud või sinna üle viidud sõnastike andmebaasid. Need on standardse XML märgendusega taaskasutatavad keeleressursid, mida saavad kasutada leksikograafid ja keeletehnoloogid uute sõnastike ja andmebaaside koostamiseks. Loodud on ka kakskeelsete sõnastike pooltoode – Eesti-X sõnastiku andmebaas, kus on olemas eesti pool (eesti märksõna kohta käivad andmed, nt sõnaliik, muutevormid, tähendusjaotus, näitelaused jm). Sihtkeele (tõlkevastete) info lisab uue kakskeelse sõnastiku koostaja. Seni on EELexi töökeskkonnas valminud 7 sõnastikku, leksikograafide käsutuses (koostamisel ja toimetamisel) on 12 sõnastikku, keeletehnoloogilise arenduse ja testimise järgus on 3 sõnastikku. Olulisemad EELexis valminud sõnastikud on koos struktuuripõhise päringu võimalustega tehtud avalikult kättesaadavaks veebis Eesti Keele Instituudi avalehel (http://portaal.eki.ee/).

EELexi töökeskkond muudab sõnastiku koostamise ja toimetamise töö lihtsamaks, kiiremaks ja kvaliteetsemaks. Alanud on koostöö kirjastustega ja teiste asutustega, kus sõnastikke koostatakse või uuteks rakendusteks (nt telefonisõnastikud) ette valmistatakse – nii Eestis kui ka väljaspool.

Publikatsioonid ja väitekirjad

  • Loopmann, Andres; Sein, Kati; Viks, Ülle (2006). Sõnastike haldussüsteem Eesti Keele Instituudis. – Keel ja arvuti (toim. Mare Koit, Renate Pajusalu, Haldur Õim). TÜ üldkeeleteaduse õppetooli toimetised 6, lk 246-258.
  • Langemets, Margit; Loopmann, Andres; Viks, Ülle (2006). The IEL dictionary management system of Estonian. – DWS 2006: Proceedings of the Fourth International Workshop on Dictionary Writing Systems (Toim. Gilles-Maurice de Schryver). Tuesday 5th September 2006. Turin, Italy (Pre-EURALEX 2006), lk 11-16.
  • Loopmann, Andres (2007). Sõnastike haldussüsteem EELex. Magistritöö. Käsikiri Eesti Keele Instituudis.
  • Viks, Ülle (2008). Eesti-X-keele sõnaraamat ja grammatika. – Eesti Rakenduslingvistika Ühingu aastaraamat 4. Koostaja Margit Langemets, toimetaja Maria-Maren Sepper. Eesti Keele Sihtasutus. Tallinn, 247–261.
  • Langemets, Margit; Loopmann, Andres; Viks, Ülle (2009). Dictionary Management System for Bilingual Dictionaries. – eLEX 2009. eLexicography in the 21st century: New challenges, new applications (Louvain-la-Neuve, 22-24 October 2009):135-139.
  • Viks, Ülle; Loopmann, Andres (2009). Eesti–X-keele sõnastik leksikograafi töökeskkonnas. – Teadusmõte Eestis (V). Humanitaarteadused. Eesti Teaduste Akadeemia. Tallinn: 43-53.
  • Langemets, Margit; Loopmann, Andres; Viks, Ülle (2010). Dictionary management system for bilingual dictionaries. Sylviane Granger, Magali Paquot (Toim.). eLexicography in the 21st century : New challenges, new applications. Proceedings of eLex 2009, Louvain-la-Neuve, 22-24 October 2009 (425 - 430). Louvain-la-Neuve: Presses universitaires de Louvain, Cahiers du CENTAL
  • Viks, Ülle; Vare, Silvi; Sahkai, Heete (2010). The Database of Estonian Word Families: a Language Technology Resource. In: Human Language Technologies. The Baltic Perspective : Proceedings of the Fourth International Conference, Baltic HLT 2010: (Toim.) Skadina, Inguna; Vasiljevs, Andrejs. Amsterdam: IOS Press, 2010, (Frontiers of Artifical Intelligence and Applications; 219), 169 - 176.
Tegevused dokumentidega