Isiklikud vahendid
Oled siin: Algus EKKTT projektid Veebipõhine interaktiivne keeleõpe ja selleks vajalikud ressursid
Navigeerimine
« Jaanuar 2021 »
Jaanuar
ETKNRLP
123
45678910
11121314151617
18192021222324
25262728293031
 

Veebipõhine interaktiivne keeleõpe ja selleks vajalikud ressursid

Eesti keele (võõrkeelena) osakonna õppijakeele korpus


Märksõnad: õppijakeel; võõrkeel; eesti keel teise keelena.

Projektijuht: Kristiina Praakli (PhD)

Eesti ja üldkeeleteaduse instituut
Eesti keele (võõrkeelena) osakond, teadur
Ülikooli 16-112Tartu
telefon: 375 227 (tööl), 56 240 553
e-mail: kristiina.praakli@ut.ee

 

Projekti põhitäitjad:

Kristiina Praakli (kristiina.praakli@ut.ee)
Neeme Kahusk (neeme.kahusk@ut.ee), arvutiteaduse instituut, keeletehnoloogia õppetooli teadur
Kadri Sõrmus (kadri.sormus@ut.ee), eesti ja üldkeeleteaduse instituudi projektijuht.

 

Projektis osalejad (2008-2010):

Helin Roosileht, eesti keele osakond, üliõpilane
Maria Loginova, eesti keel ja kultuur muukeelsetele eriala üliõpilane
Olga Boikova, eesti keel ja kultuur muukeelsetele eriala üliõpilane
Andrea Nad, eesti keele (võõrkeelena) osakond
Madis Arukask, eesti keele (võõrkeelena) osakond, dotsent
 
 

ÕPPIJAKEELEKORPUS ON autentne õppijakeele elektrooniline kogu, mis sisaldab Tartu Ülikoolis eesti keelt teise keelena või võõrkeelena õppivate üliõpilaste loodud eri tüüpi kirjalikke tekste. Õppijakeel tähendab keelevariante, mida õppijad sihtkeeles loovad.

 
Õppijakeele korpus loodud kahel eesmärgil:
 
1) luua andmebaas, mis pakub autentset keelematerjali õppijakeele uurimiseks ning õppematerjalide koostamiseks;
 
2) arendada õppijakeele korpuse baasil välja eesti keelt võõrkeelena või teise keelena õppijale õpet toetav veebikeskkond.
 
 
Õppijakeele korpuse keeletehnoloogiline eesmärk on välja töötada veamärgendus-süsteem ning märgendada õppijakeele korpus kõikide vigade osas.  Nii võimaldab korpus uurida mitte-eesti keelt emakeelena kõnelevate üliõpilaste kirjalikku keelekasutust eesti keeles ning tuua välja need erijooned, mis eristavad õppijakeelt emakeelena kõnelejate keelest.
 

 
ALLKORPUS 1= PARALLEELKORPUS (2006-2007)
 
Töörühm: Raili Pool, Elle Vaimann, Ingrid Rummo (2006-2007)
 
Lühikirjeldus:
 
Paralleelkorpus koosneb B1 ja B2 kirjaliku keeleoskustasemega üliõpilaste kirjalike tööde vigaste lausetest. Iga normidele mittevastava lause juurde on paralleelselt sisestatud parandustega lause (kas üks või mitu parandusversiooni) ning vajadusel kommentaarid. Iga vealause juurest leiab ka veategija profiili, mis sisaldab veategija kohta peamist infot kodeeritud vormis (sugu, rahvus, emakeel, elukoht, keeleoskuse tase).
 
Andmete vorm ja maht:
 
üksiklaused; paralleelistatud tekst; 9 000 vigast lauset, 9100 parandatud lauset (emakeelena kõnelejate parandused). Keelevead ei ole märgendatud.
 
 

ALLKORPUS 2 =
TEKSTIKORPUS (2008-2010)
 
Töörühm: Kristiina Praakli (vastutaja), Neeme Kahusk, Kadri Sõrmus, Madis Arukask, Helin Roosileht, Maria Loginova, Olga Boikova, Andrea Nad.
 
Lühikirjeldus
 
Kogutud materjali aluseks mitte-eestlastest üliõpilaste (emakeel vene, soome, saksa, inglise, läti ja hispaania keel) kirjalikud tööd. Eesmärgiks on koguda terviktekste, mis võimaldavad näha ja analüüsida viga ja vea konteksti tervikuna. Tekstikorpus koosneb kindlate kriteeriumide alusel igapäevastest keeleõppesituatsioonidest kogutud tekstidest.
 
Tekstikorpuse tekstiliigid:
 
1. Kodukirjandid (lektüüri kokkuvõtted, analüüsid, aktuaalsed teemad)
 
2. Eksamitööd (pikemad kirjalikud tekstid, mitte ülesanded)
 
3. Tunnis kirjutatud tekstid
 
4. Üliõpilaste e-kirjad
 
5. Lõputööde sissejuhatused ja kokkuvõtted
 
6. Praktikapäevikud
 
 
Iga teksti juurde on lisatud metaandmed teksti ja autori kohta (teksti liik, informandi tähis, emakeel, sugu, elukoht, keeleoskustase).
 
Vealiigid märgendatakse kuue põhitasandi lõikes (ortograafia, morfoloogia, süntaks, leksika, stiil, muu). Keelevigade põhitasandite kõrval määratletakse ka keelevigade alltüübid. Märgendamissüsteem peab katma võimalikult erinevad vealiigid ning võimaldama ühele sõnale (fraasile, lausele,   lauseosale) lisada ka mitu erinevat märgendit. Keelevigade sagedusloend annab ülevaate õppijakeele tekstides esinevate sõnade tegeliku esinemissageduse kohta ning võimaldab teha statistilisi uurimusi. Statistiline analüüs peegeldab ka teatud sõnade või grammatiliste vormide üle- või alakasutust õppija keeles. Märksõnaotsingud analüüsivad sõna nende esinemise kontekstis ning võimaldab leida kõik otsitava sõna esinemisjuhud.
 
 Andmete vorm ja maht: u 300 000 sõna; tekst, xml; märgendatud keeletasandid: ortograafia; morfoloogia; süntaks; leksika; stiil; muu.
 

 

Tegevused dokumentidega