Isiklikud vahendid
Oled siin: Algus EKT projektid Võru ja seto keelekorpus

Võru ja seto keelekorpus

 Projekti läbiviiva asutuse nimi: Võru Instituut

 Projektijuht: Sulev Iva, sulev.iva@ut.ee

 Projekti läbiviiv meeskond: Sulev Iva, Grethe Juhkason, Mariko Faster, Triin Iva, Kristian Kankainen, Laivi Vodi, Tiit Hennoste, Liina Lindström, Maike-Liis Rebane

 

Projekti vajadus ja taust

Võru ja seto keele arendamist ja laialdasemat kasutust on peetud tähtsaks nii kohalikul kui riiklikul tasandil. On üldiselt teada, et tänapäeva maailmas ei saa säilida ega jätkusuutlikult areneda keeled, millele pole loodud vähimatki keeletehnoloogilist tuge. See kehtib ka võru ja seto keele kohta, mis on 2009. aastal kantud UNESCO ohustatud keelte nimekirja. Setokeelne leelotraditsioon on samas kantud ka UNESCO maailma vaimse kultuuripärandi nimekirja. Projekti partnerid on TÜ murdekorpus ja suulise kõne korpus ning TÜ Lõuna-Eesti keele- ja kultuuriuurngute keskus.
 

Projekti eesmärgid

Projekti eesmärgiks on ette valmistada võru ja seto keelele keeletehnoloogilise toe (automaatkorrektuuri, -poolitaja, masintõlke, kõnesüntesaatori jt vajalike rakenduste) loomist läbi võru ja seto nii kirjalike kui suuliste keeleressursside kogumise ja korraldamise ühtseks keelekorpuseks, mida saab kasutada ka keeleteaduslikel eesmärkidel.

 

Projekti planeeritud tulemused

Projekti tulemusel luuakse võru ja seto keelekorpus, mis sisaldab nii kirjaliku kui suulise keele allkorpust. Võru ja seto kirjakeele allkorpus sisaldab eelkõige ajakirjandustekste, aga ka ilu- ja õppekirjanduse jm kirjalikke tekste. Suulise keele allkorpus sisaldab eelkõige võru- ja setokeelse spontaanse kõne, aga ka intervjuude, ettekannete jm suulise kõne liikide heli- ja videosalvestusi ja nende litereeringuid. Korpust täiendatakse pidevalt ning luuakse selle kasutamiseks vajalikud otsingumootorid.  

 

Projekti senised tulemused ja saavutused

2011: Projekti algusaastal töötati välja korpuse loomise põhimõtted ja alustati nii kirjalike kui suuliste tekstide kogumisega ning salvestiste litereerimisega. Suurimas mahus koguti korpusesse ajakirjandustekste ajalehe Uma Leht arhiivi põhjal (tekstimahuga ca 400 000 sõna), sellele lisaks ka ilu- ja õppekirjanduse ja tarbetekste (ca 100 000 sõna mahus). Koguti ca 20 tundi heli- ja 27 tundi videosalvestisi ja litereeriti neid ca 40 000 sõna mahus.

2012: Projekti teisel aastal jätkati kirjalike ja suuliste tekstide kogumist. Suurimas mahus koguti taas ajakirjandustekste (ca 500 000 sõna). Salvestisi tehti ca 20 tundi ja litereeringuid ca 45 000 sõna mahus. Teise tööaasta jooksul loodi samuti korpuse kasutamist hõlbustavad otsimootorid nii kirjaliku kui suulise keele allkorpuse jaoks ning

alustati ajaliselt joondamata litereeringute üleviimist joondatud kujule programmi ELAN abil.

 

Korpuse eesti- ja võrukeelne koduleht koos võru lastekeele videonäite ja korpuse võru kirjakeele ossa kogutud ajakirjandustekstidega asub Võru Instituudi kodulehe juures aadressil:

eesti k http://wi.ee/index.php/keelekorpus-et
võru k http://wi.ee/index.php/keelekorpus-vro

 

Tegevused dokumentidega