Isiklikud vahendid
Oled siin: Algus EKKTT projektid Kõnekeele ressursid ja kõnetehnoloogia andmebaasid
Navigeerimine
« Detsember 2019 »
Detsember
ETKNRLP
1
2345678
9101112131415
16171819202122
23242526272829
3031
 

Kõnekeele ressursid ja kõnetehnoloogia andmebaasid

Projekti eesmärgiks on eesti keele foneetilisteks ja kõnetehnoloogilisteks uuringuteks ning arendustöödeks vajalike kõnekorpuste salvestamine, digitaliseerimine, märgendamine ja arhiveerimine, samuti ühtse tehnoloogilise keskkonna loomine erinevate andmebaaside haldamiseks ja efektiivseks kasutamiseks.

Põhitulemused

Uudistekorpus

Korpus sisaldab ca 300 tundi Eesti Raadio lühiuudiste salvestusi ja  üle 8000 lk digitaliseeritud uudistetekste. Korpuse märgendamiseks on välja arendatud töökeskkond vabavaralise programmi Transcriber (http://trans.sourceforge.net) baasil, märgendatud on 30 tundi uudistesalvestusi. Märgendamine koosnes kahest etapist: 1. automaatse kõnetuvastuse abil  genereeriti signaalifailidele vastavad tekstifailid, 2. Transcriberi abil kontrolliti automaatselt tuvastatud tekstide ja salvestuste vastavust ning korrigeeriti käsitsi tuvastusvead. Korpus on kättesaadav LAMUS-süsteemi kaudu.

Vestlussaadete korpus

Korpus sisaldab ca 20 tundi raadiote vestlussaadete (Rahvateenrid, Olukorrast riigis, Reporteritund, Kukkuv õun, Vastasseis, Linnatund, Välismääraja, Nädala tegija jt) salvestusi, mis kõik on käsitsi märgendatud (Transcriberi abil). Korpus on kättesaadav LAMUS-süsteemi kaudu.

Loengukõne korpus

Korpus sisaldab umbes 350 tundi eri ainevaldkondade akadeemiliste loengute salvestustusi (erinevate lektorite arv on 33) ja üle 20 tunni konverentsiettekandeid (45 isikut). Konverentsiettekannetest on märgendatud (Transcriberi abil) 24 isiku salvestused kogumahuga ca 13 tundi. Korpus on kättesaadav LAMUS-süsteemi kaudu.

Aktsendikorpus

Aktsendikorpus sisaldab eri emakeelega inimeste eestikeelse kõne salvestusi. Salvestatud on umbes 160 keelejuhi kõnematerjal, kelle keeletaust on järgmine: vene (50), soome (30 keelejuhti), saksa (15), prantsuse (12), itaalia (5), inglise (4), leedu (3), hispaania (2), taani (2), hollandi (2), slovaki (2), jaapani (2),  hindi (2), rootsi (1), poola (1), läti (1), šoti (1), iiri (1), aserbaidžaani (1), portugali (1), võrdlusmaterjalina on salvestatud 20 eesti emakeelega keelejuhi kõnenäited. Korpus on kättesaadav LAMUS-süsteemi kaudu.

Infrastruktuuri kaasajastamine

On välja ehitatud ja sisustatud kõnesalvestusstuudio, kõnekorpuste tarvis on paigaldatud eraldi server. Kõnekorpuste haldamiseks ja neile ligipääsu loomiseks on kohandatud Hollandis Max Planck’i Psühholingvistika Instituudis välja töötatud korpuste haldussüsteem LAMUS (Language Archive Management and Upload System, http://www.lat-mpi.eu/tools/lamus/).

 

Vaata projekti kodulehte http://www.phon.ioc.ee/dokuwiki/doku.php?id=projects:ressursid:ressursid.et

 

Tegevused dokumentidega