Eesti keele (võõrkeelena) osakonna õppijakeele korpus
Märksõnad: õppijakeel; võõrkeel; eesti keel teise
keelena.
Projektijuht: Kristiina Praakli (PhD)
Eesti ja üldkeeleteaduse instituut
Eesti keele (võõrkeelena) osakond, teadur
Ülikooli 16-112Tartu
telefon: 375 227 (tööl), 56 240 553
e-mail: kristiina.praakli@ut.ee
Projekti põhitäitjad:
Kristiina Praakli (kristiina.praakli@ut.ee)
Neeme Kahusk (neeme.kahusk@ut.ee), arvutiteaduse instituut, keeletehnoloogia õppetooli teadur
Kadri Sõrmus (kadri.sormus@ut.ee), eesti ja üldkeeleteaduse instituudi
projektijuht.
Projektis osalejad (2008-2010):
Helin Roosileht, eesti keele osakond, üliõpilane
Maria Loginova, eesti keel ja kultuur muukeelsetele eriala üliõpilane
Olga Boikova, eesti keel ja kultuur muukeelsetele eriala üliõpilane
Andrea Nad, eesti keele (võõrkeelena) osakond
Madis Arukask, eesti keele (võõrkeelena) osakond, dotsent
ÕPPIJAKEELEKORPUS ON autentne õppijakeele
elektrooniline kogu, mis sisaldab Tartu Ülikoolis eesti keelt teise keelena või võõrkeelena õppivate üliõpilaste loodud eri tüüpi kirjalikke tekste. Õppijakeel tähendab keelevariante, mida
õppijad sihtkeeles loovad.
Õppijakeele korpus loodud kahel eesmärgil:
1) luua andmebaas, mis
pakub autentset keelematerjali õppijakeele uurimiseks ning õppematerjalide koostamiseks;
2) arendada õppijakeele korpuse baasil
välja eesti keelt võõrkeelena või teise keelena õppijale õpet toetav
veebikeskkond.
Õppijakeele korpuse keeletehnoloogiline
eesmärk on välja töötada veamärgendus-süsteem ning märgendada õppijakeele korpus
kõikide vigade osas. Nii võimaldab
korpus uurida mitte-eesti keelt emakeelena kõnelevate üliõpilaste kirjalikku
keelekasutust eesti keeles ning tuua välja need erijooned, mis eristavad
õppijakeelt emakeelena kõnelejate keelest.
ALLKORPUS 1= PARALLEELKORPUS (2006-2007)
Töörühm: Raili Pool, Elle
Vaimann, Ingrid Rummo (2006-2007)
Lühikirjeldus:
Paralleelkorpus
koosneb B1 ja B2 kirjaliku keeleoskustasemega üliõpilaste kirjalike tööde vigaste lausetest. Iga
normidele mittevastava lause juurde on paralleelselt sisestatud parandustega
lause (kas üks või mitu parandusversiooni)
ning vajadusel kommentaarid. Iga vealause juurest leiab ka veategija profiili,
mis sisaldab veategija kohta peamist infot kodeeritud vormis (sugu, rahvus,
emakeel, elukoht, keeleoskuse tase).
Andmete vorm ja maht:
üksiklaused; paralleelistatud tekst; 9 000 vigast lauset, 9100 parandatud
lauset (emakeelena kõnelejate parandused). Keelevead ei ole märgendatud.
ALLKORPUS 2 = TEKSTIKORPUS (2008-2010)
Töörühm: Kristiina Praakli (vastutaja), Neeme Kahusk, Kadri Sõrmus, Madis Arukask, Helin Roosileht, Maria Loginova, Olga Boikova, Andrea Nad.
Lühikirjeldus
Kogutud materjali aluseks mitte-eestlastest üliõpilaste (emakeel vene, soome, saksa, inglise, läti ja hispaania keel) kirjalikud tööd. Eesmärgiks on koguda
terviktekste, mis võimaldavad näha ja analüüsida viga ja vea
konteksti tervikuna. Tekstikorpus koosneb kindlate kriteeriumide alusel igapäevastest keeleõppesituatsioonidest kogutud tekstidest.
Tekstikorpuse tekstiliigid:
1. Kodukirjandid (lektüüri kokkuvõtted, analüüsid, aktuaalsed
teemad)
2. Eksamitööd (pikemad
kirjalikud tekstid, mitte ülesanded)
3. Tunnis kirjutatud tekstid
4. Üliõpilaste e-kirjad
5. Lõputööde
sissejuhatused ja kokkuvõtted
6. Praktikapäevikud
Iga teksti juurde on lisatud metaandmed teksti ja autori kohta (teksti
liik, informandi tähis, emakeel, sugu, elukoht, keeleoskustase).
Vealiigid märgendatakse
kuue põhitasandi lõikes (ortograafia, morfoloogia, süntaks, leksika, stiil, muu). Keelevigade põhitasandite
kõrval määratletakse ka keelevigade alltüübid. Märgendamissüsteem peab katma võimalikult
erinevad vealiigid ning võimaldama
ühele sõnale (fraasile, lausele, lauseosale) lisada ka mitu erinevat märgendit. Keelevigade sagedusloend annab ülevaate õppijakeele
tekstides esinevate sõnade tegeliku
esinemissageduse kohta ning võimaldab teha
statistilisi uurimusi. Statistiline analüüs peegeldab
ka teatud sõnade või
grammatiliste vormide üle- või alakasutust õppija keeles. Märksõnaotsingud analüüsivad sõna nende esinemise kontekstis ning võimaldab leida kõik otsitava sõna esinemisjuhud.
Andmete vorm ja maht: u 300 000
sõna; tekst, xml; märgendatud
keeletasandid: ortograafia; morfoloogia; süntaks; leksika; stiil; muu.