Isiklikud vahendid
Oled siin: Algus EKKTT projektid Päringusüsteemid
Navigeerimine
« Jaanuar 2021 »
Jaanuar
ETKNRLP
123
45678910
11121314151617
18192021222324
25262728293031
 

Elektrooniliste teatmeteoste kasutajasõbralikud päringusüsteemid


Tulemusi:

Üldistatud teisenduskaugusel põhinevad otsimeetodid:
https://biit-dev.cs.ut.ee/~orasmaa/gen_ed_test/

https://biit-dev.cs.ut.ee/~orasmaa/ing_ligikaudne/

Ligikaudne regulaaravaldiste otsimine


Eesmärgid:

Sõnastike, tekstikropuste ja teiste tekstiandmebaaside elektroonilise kasutuse populariseerimiseks on esmalt ülioluline saavutada algmaterjali ja päringusüsteemide selline kvaliteet, mille abil edasi arendada kasutajale mugavaid keskkondi. Päringusüsteemid peavad olema lihtsad, võimsad ja intelligentsed – paraku on need sellised nõuded, mis ei ole alati üksteisega kooskõlas. Projekti käigus uurime kvaliteedi saavutamise nõudeid ja töötame välja uusi, kasutajasõbralikke päringusüsteeme.

Käesoleva projekti esimene eesmärk on sõnastike ja teiste teatmeteoste struktuurne märgendamine ja ettevalmistamine elektroonilise andmebaasi ning info-otsingute jaoks. Kuigi esmapilgul on erinevad sõnastikud tavakasutajale üsna ühesugused, on sõnastike elektrooniliste versioonide ettevalmistamisel palju asjaolusid mis sõnastike elektroonilise kirjastamise mittetrviaalseks teevad. Esimene probleem on sõnastiku kirjete struktuuri märgendamine, mida eri autorite poolt teostatakse väga erinevalt. Esineb puhtalt paberversioonile orienteeritud teoseid (näit. ÕS, Seletussõnaraamat jne) ja puhtalt elektroonilisi teoseid (n. Teksaurus). Samuti esineb mitmeid erinevaid märgendusstiile (rea alguse põhine välja markeerimine Antonüümisõnaraamat jt; tabuleeritud teksti paljude atribuutidega 1976 a ÕS, XML-laadne märgendus Vene-eesti sõnaraamat; puu-kujuline ristiviidetega märgendus Teksaurus jne). Praktiliselt kõik meile teadaolevad sõnastikud kasutavad suhteliselt lõdvalt kokku lepitud märgendust, millel puuduvad väga täpsed formalismid ja struktuuri kirjeldavad definitsioonid (XML schema, struktuuri kirjeldav grammatika jne). Paljudel algmaterjalidel puudub struktuurse märgenduse kuju aga sootuks, näiteks on need vaid Wordi failide kujul kasutades paremal juhul küljendus-märgendust. Eesmärk on aidata kaasa märgendusviiside ühtlustamisele.

Projekti teine eesmärk on lihtsate ja mugavate päringusüsteemide välja töötamine ja arendamine. KeeleWebi arendamise jooksul ilmnesid mitmed asjaolud mis muudavad sõnastiku kas mugavalt või hoopis eamugavalt kasutatavaks. Sõnastike päringuliideste vajadused eri kasutajagruppides on kohati täiesti erinevad ja seega tuleb päringusüsteeme arendada vastavalt kasutajagruppide vajadustele. Vaid täpse kirjete struktuuri teadmine lubab aga teostada intelligentsemaid päringuid ja paremini ennustada millised päringule vastavad artiklid kasutajat tegelikult huvitasid. Selles vallas on huvitavaid arenguid näidanud avalik veebiteenus Keelevara, mis koondab mitmeid kümneid teoseid. Käesoleva projekti raames uurime päringute kasutajasõbralikuks muutmise problemaatikat ja metoodikaid. See sisaldab nii ühe sõnastiku kekseid päringuid ja päringuvastuste sorteerimise (i.k. ranking) meetodeid, kui ka komplekspäringute (päring korraga paljudesse eri sõnastikesse) vastuste sobiva esituse valikut. Näiteks KeeleWebi komplekspäringus ei olnud arvestatud üldse milliste sõnastike vastused oleksid kõige prioriteetsemad. Üks oluline moment on võtta kasutusele lingvistiliselt mõistlikud sõnade sarnasuse mõõdud, mis võimaldavad igale täheühendite teisendusele määrata sobiva kaalu. Kasutusnäited on võõrnimede erinevad transkriptsoonireeglid, murrete ja tüüpiliste sisestusvigade spetsiifilised reeglid, või koguni venekeelsetest tekstidest ladina tähestiku järgi otsimine. Lisaks sellisele mehhaanilisele ja statistilisele sarnasusele arendaksime välja ka morfoloogilist analüüsi ja sünteesi kasutavad päringumootorid, eeldusel, et vastavad moodulid on projekti juures kasutatavad.

Projekti kolmas eesmärk on elektrooniliste sõnastike kasutuse populariseerimine ennekõike läbi juhendmaterjalide ja koolitusprogrammide välja töötamise, koostamise ja koolituste läbi viimise. Eesmärk on töötada välja oma materjalid nii koolidele, tavakasutajatele ja professionaalsetele kasutajatele.

Kokkuvõttes pühendub käesolev projekt elektrooniliste sõnastike ja teatmeteoste (sealhulgas ka tekstikorpuste) kasutajate kasutusmugavuse tõstmise saavutamisele läbi (keele)tehnoloogiliste vahendite. See eesmärk on võimalik saavutada vaid läbi väga kvaliteetse ja süstemaatilise sõnastike ettevalmistuse protsessi ning intelligentsete päringumetoodikate välja-arendamise.  Kuna projekti eesmärgid on küllaltki ambitsioonikad, tuleb märkida, et praktikas saab kasutusmugavust arendada vaid olemasolevate elektrooniliste väljaannete baasil. Projekti kasutada on vananenud KeeleWebi materjalid ja päringulogid. Koostöökokkulepe on saavutatud ka projekti Keelevara autoritega, et uurida kasutajate harjumusi ja üheskoos arendada edasi avalikke teenuseid ning tõsta sõnastike kasutusmugavust. Lisaks oleme avatud ka täiesti uuele koostööle kõigi võimalike sõnastike ja teatmematerjalide autorite ja kirjastajatega.

Projekti tulemuste tähtsus eesti keele ja kultuuri kontekstis ilmneb läbi lisandunud elektrooniliste teatmeteoste kasutuse mis tänu oma spetsiifikale lubab sageli saada paremaid tulemusi kui traditsiooniliste pabersõnastike lappamisega. Näiteks ühispäringud ja päringud üle sõnaseletuste ei oleks teostatavad pabersõnastikes.
Tegevused dokumentidega