Isiklikud vahendid
Oled siin: Algus EKKTT projektid Korpusepäring keeleveebis Korpusepäring keeleveebis
Navigeerimine
« Jaanuar 2021 »
Jaanuar
ETKNRLP
123
45678910
11121314151617
18192021222324
25262728293031
 

Korpusepäring keeleveebis

Eesti keele koondkorpuse (www.cl.ut.ee) kasutusvõimaluse loomine www.keeleveeb.ee kaudu: mugav päringusüsteem, mis võimaldab otsida nii sõna algvormi kui morfosüntaktiliste tunnuste järgi. Selleks tehakse tekstide automaatne morfoloogiline analüüs ja ühestamine, kasutades Filosofti keeletöötlusprogramme.

 

Eesmärgid

1. Võimaldada eesti keele uurijatel ja eesti keelt teise keelena õppijatel tekstikorpusi mugavalt üle interneti kasutada (Riikliku programmi alaeesmärk 3.2.1.6)

2. Suurendada veebis kättesaadavate erialasõnastike arvu, teisendades olemasolevaid standardsele XML-põhisele kujule TBX (Term Base eXchange, http://www.lisa.org/standards/tbx/), mis on just termini-sõnastike ja –baaside jaoks mõeldud standard. (Riikliku programmi alaeesmärk 3.2.3.1)

3. Siduda sõnastiku- ja korpusepäringud omavahel, nii et lisaks sõnastiku-vastele saab kasutaja ka näiteid otse korpusest.

Käesolevas projektis ühendatakse olemasolevad eesti keele ressursid - tekstikorpus, morfoloogiline analüsaator koos ühestajaga ning sõnastikud – uueks tervikuks, mis annab seni puudunud võimalused nii uurijatele, eesti keele õppijatele kui ka muidu huvilistele.

Sellisel moel viiakse eesti keele tekstikorpus suurema hulga interneti-kasutajate vaatevälja, mida võib pidada oluliseks nii eesti keele maine ja keelealase teadlikkuse tõstmisel kui ka keeletehnoloogia potentsiaali teadvustamisel.

Liidetakse järgmised ressursid, mille kasutamiseks antud projekti raames ei ole autoriõiguslikke takistusi: TÜ eesti keele koondkorpus (http://www.cl.ut.ee), Filosofti morfoloogiline analüsaator (http://www.filosoft.ee) ja ühestaja ning mitmete eri autorite sõnastikud (nt. http://www.keeleveeb.ee).

Morfoloogilise analüsaatori ja ühestaja kasutamine võimaldab otsida korpusest sõnu, ilma et peaks muretsema sõna muutevormide rohkuse pärast. See omakorda võimaldabki teha korpuse-päringut samasuguse lihtsusega kui sõnastikupäringut.

Projekt realiseeritakse leheküljel http://www.keeleveeb.ee (ehk http://keeleveeb.edu.ee)

Tähtsus

1. Praegu on TÜ koondkorpuse kasutamine mugav inimesele, kellel on vajadused ja oskused korpust põhjalikult töödelda (nt. statistika tegemiseks): kõik tekstid on mitte-kommertskasutuseks vabalt äratõmmatavad, misjärel neid saab oma arvutis töödelda mistahes viisil. Kasutaja, kelle põhiline huvi on leida korpusest kasutus-näiteid, aga enamasti ei soovigi korpust enda arvutisse kopeerida. Tema jaoks on põhjalikumaid arvutialaseid teadmisi eeldav kasutaja-liides asjatult keeruline ja seega tõsiseks takistuseks korpuse mõistlikul kasutamisel.

Korpuse loomiseks tehtavad kulutused läheksid osaliselt tühja, kui korpuse kasutamine oleks ka edaspidi raskendatud, kuivõrd korpuse kasvav maht nõuab uusi tehnoloogilisi lahendusi. Nimelt on eesti keele koondkorpuses juba praegu kümnete miljonite sõnade ulatuses lausestatud, formaalselt korrektseid, TEI-le vastavaid tekste. Edaspidi see korpus oluliselt suureneb, vastavalt riikliku programmi ülesandele 3.2.1.1.

2. Sõnastikud ei sisalda (juba ruumipuudusel) kogu infot, mis on seotud sõnade tähenduste ja kasutuse kõigi aspektidega. Eriti oluline võib see olla inimesele, kelle jaoks eesti keel pole emakeel. Sõnastike sidumine korpustega peaks seda probleemi leevendama.

3. Erialasõnastike reaalne (mitte potentsiaalne) kättesaadavus on oluline nii vastava erialaga tegelejatele kui ka mittespetsialistidele. Aeg-ajalt tuleb meil kõigil – tõlkijatel, toimetajatel, lihtlugejatel – ette olukord, kus peame toime tulema meile tundmatu valdkonna terminoloogiaga, olgu selleks siis metsas kohatud linnu ladinakeelne nimi või ehituskonstruktsiooni ingliskeelne kirjeldus. Sellisel juhul võiks abi olla erialasõnastikust (ükski üldkeele sõnastik ei sisalda kõikvõimalike erialade termineid), mis oleks internetis vabalt kasutatav ja seejuures kergesti leitav - seotud tuntud portaaliga.

4. Eesti keele (ja tema õppimise) maine jaoks on tähtis, et ta oleks nähtavalt esindatud nn. uues meedias – arvutis ja internetis. Väga oluline on seejuures, et ta oleks seotud ka innovatiivsete tehniliste lahendustega.

Senised tulemused (2006-2010)

1. Keeleveebis (www.keeleveeb.ee) on tehtud tasuta kasutatavaks 30 erialasõnastikku kogumahuga 200 000 mõistet. Mõned olulisemad aspektid:
1.1. Kõik erialasõnastikud on kasutatavad ühispäringus, millesse on hõlmatud ka 30 keeleveebi-välist sõnastikku. See tähendab, et saab otsida sõna või terminit kuni 60 sõnastikust korraga.
1.2. Muuhulgas on välja pandud 14 põhikoolile mõeldud ainesõnastikku, mis koostati Haridus- ja Teadusministeeriumi tellimusel Tartu Ülikoolis ja anti välja aastal 2005. Sõnastikes on eestikeelne termin ja termini seletus ning venekeelne vaste. Mitme aine puhul on tegemist antud valdkonna esimese eestikeelse sõnastikuga.

2. Eesti keele koondkorpuse kirjakeelsed alamkorpused mahus 200 miljonit sõna on morfoloogiliselt analüüsitud ja ühestatud, indekseeritud sõnavormi, lemma ja grammatilise info järgi ning kasutamiseks väljas.

 

 Töökava 2010

- Luuakse päring kirjakeele normist hälbivat internetikeelt esindava Uue Meedia korpusele (20 miljonit sõna). Et see korpus morfoloogiliselt analüüsida ja ühestada, tuleb selles kasutatav keel esmalt „tõlkida“ normeeritud kirjakeele kujule, mis omakorda tähendab internetikeele ortograafilise, morfoloogilise ja leksikaalse ehituse omapära uurimist. Allpool on üks näide jututoa vestlusest, millest peaks olema näha, et antud ülesanne on oluliselt keerulisem kui kirjakeelsete korpuste viimine päringusüsteemi alla.

 

 

Janna: ähh mix ei viicind sis

 Janna:  kodus parem olla? :P

 belief: nu ma ei tahtnud eriti mööda linna kargutada

 belief: ja palju õppida ka

Janna: nujah sis küll

 Janna: ehh kõikidele nii palju õppida antaxe,aa meile küll mitte..

belief: hehee

 belief: mullu korraga mingi 1-2 peatükki antakse igas aines

 belief: a selle pärast küll ära hädalda Janna

 Janna: heh ega ma ei hädaldagi

 Janna: ma niisama ütsin :P

 Janna: kõik lissalt räägivad koguaeg, et appike nii palju õppida jne..

 

 

 

Tegevused dokumentidega