Isiklikud vahendid
Oled siin: Algus EKT projektid Kõne ja teksti emotsionaalsuse statistilised mudelid

Kõne ja teksti emotsionaalsuse statistilised mudelid

Projekti eesmärk - automaatselt ära tunda emotsioon kõnes ja kirjas realiseeritakse kahe prototüübina: 1) veebipõhine kirjaliku teksti polaarsuse määraja (emotsioonidetektor); 2) kõnelejakohane emotsionaalsuse tuvastaja.

Asutus: Eesti Keele Instituut

Projektijuht: Hille Pajupuu, hille.pajupuu(at)eki.ee

Meeskond: Rene Altrov, Jaan Pajupuu, Kairi Tamuri


Projekti vajadus ja taust

Emotsioone tõlgendava ja väljendava arvuti idee on viimase 15 aastaga muutnud emotsioonid kõnevaldkonna eksootilisest uurimisteemast peavooluteemaks. Praktiline eesmärk on loomulikustada ja muuta intelligentsemaks inimese ja masina suhtlus. Emotsioonituvastuse eelduseks on emotsionaalse kõne korpuse olemasolu. Emotsioonikorpusi kasutatakse siin tavaliselt selleks, et treenida iseõppivaid klassifitseerijaid, statistilisi mudeleid. Eesti emotsionaalse kõne korpus loodi selle projekti eelkäijana eelmise riikliku keeletehnoloogia programmi toel. Korpus sisaldab märgendatud emotsionaalset kõnet ja teksti ning on loodud selliselt, et seda saab laiendada sõltuvalt eesmärgist ja keeletehnoloogilisest ülesandest: temasse saab lisada uusi kõnelejaid, jagada emotsioone enamatesse kategooriatesse ja määratleda neid dimensioonidel.

Sellel projektil on kaks ülesannet, mis on seotud inimene-masin suhtluse edendamisega. Esiteks, kirjaliku teksti emotsionaalsuse tuvastamine, mis võimaldaks tekst-kõne sünteesi puhul kindlaks teha loetava teksti emotsionaalsuse ja seda sünteesitavas kõnes arvesse võtta. Teiseks, kõne emotsionaalsuse tuvastamine, mis võimaldaks masinal sellele adekvaatse emotsiooniga vastata.

Emotsioone käsitatakse kõnetehnoloogias pigem laias tähenduses: emotsioon on see, „mis on enamasti kogu aeg olemas, ent puudub, kui inimesed on emotsioonitud” (Cowie jt 2011; Schuller jt 2011).  Täismahulisi emotsioone, nagu esitavad näitjelad, tuleb igapäevaelus ette harva. Käimasolev projekt tegeleb mõõdukalt väljendunud emotsioonidega,  kasutatakse nii kategooria- kui ka dimensioonipõhist lähenemist.  Kategooriatest on hõlmatud viha, kurbuse ja rõõmuga seonduvad emotsioonid, dimensioonidest valentsidimensioon (positiivne-negatiivne) ja aktiivsuse dimensioon (aktiivne-passiivne).

Taustast laiemalt Hille Pajupuu. Emotsioonid - kõnetehnoloogia olevik ja tulevik. Keel ja Kirjandus 8-9, 2012, lk 629-643.

Eesmärk 1: Luua kirjaliku teksti polaarsuse määraja (emotsioonidetektor)

Eesmärgiks on tuvastada mis tahes liiki kirjaliku teksti positiivsus, negatiivsus, neutraalsus või vastuolulisus.

Meetod: leksikonipõhine + statistiline

Emotsioonidetektor hindab kirjaliku teksti ortograafilise lõigu emotsionaalsust: näitab, kuidas lõik võiks lugejale mõjuda: positiivselt, negatiivselt, neutraalselt, vastuoluliselt (selles on nii positiivsust kui negatiivsust). Detektor annab üldhinnangu ka kogu tekstile.
Hinnangu andmisel lõikudele kasutab detektor võtmesõnu, milleks on kõige sagedamad eesti keele emotsioonisõnad ja tekstitüübikohased emotsioonisõnad ning reeglid.

Lisaks leksikonipõhisele on 2014. aastast alates  kasutusel ka emotsioonituvastuse statistiline klassifitseerija.

2011. aasta tulemus - Loodi võtmesõnade loend (1347 võtmesõna: 617 positiivset ja 730 negatiivset). Emotsioonidetektori versioon 0.3; detektori hinnang kattus lugejahinnanguga 74% juhtudest. 

2012. aasta  tulemus - Timmiti võtmesõnade loendit 6 ajakirjandusliku tekstiliigi põhjal: "Postimehe" rubriigid Eesti uudis, välisuudis, krimi, sport, arvamus, kultuur. Detektoriga analüüsiti üle 1000 lõigu ning kõrvutati tulemust lugejahinnanguga. Võtmesõnu vähendati ja muudeti. Praegu on neid 1019 (413 positiivset, 606 negatiivset). Detektori hinnang kattuvus lugejahinnanguga sõltub tekstitüübist, jääb 60-85% vahele (nt Postimehe arvamuslugudel on tuvastusprotsent madalam kui märksa konkreetsema sisuga Välismaa või Krimi rubriigi lugudel).

2013. aasta tulemus - Lisandunud on statistiline klassifitseerija. 

  • Emotsioonidetektori versioon 0.9 vt Emotsioonidetektor, Dokumentatsioon vali: User Interface, anonymous users, applications. Detektor annab lõikude emotsioonile nii leksikonipõhise kui ka statistilise hinnangu.
  • Emotsioonidetektor MS Exceli laiendusena. Installeerimisjuhis.
  • Analüüsitud lõikudest, mille emotsionaalsusele on lugejad andnud hinnangu (negatiivne, positiivne, neutraalne, vastuoluline) on loodud valentsikorpus (hetkel 2561 ortograafilist tekstilõiku), mida kasutatakse detektori häälestamiseks ja statistilise klassifitseerija treenimiseks.

 Kasutusvaldkonnad lisaks rakendusele inimese ja masina suhtluses:

  •  Võib lasta hinnata oma kirjutatud teksti (meilide, kõnede, muu loome) emotsionaalset mõju lugejale
  • Võib hinnata veebiteksti, nt ajaleheartikli emotsionaalset mõju
 

 

  • Võib hinnata Excelis olevate tekstide emotsionaalsust.

null

 

  • Saab rakendada arvamus- ja hinnagu-uuringute (opinion mining, sentiment analysis) komponendina.

Eesmärk 2: Luua kõnelejakohane emotsioonituvastaja,

mis treenimise järel oleks võimeline inimese emotsioone tuvastama.

Meetod: statistiline

2011-2013 tulemused

Kõnelejakohase emotsionaalsuse tuvastaja loomiseks on analüüsitud emotsionaalse kõne korpuse materjalil emotsioonide akustikat (spektrit, intensiivsust, põhitooni, kõnetempot), leitud eesti emotsioonidele omased karakteristikud ja eripära, nt neutraane kõne on intensiivsem vihasest  kõnest, vihane kõne on madala põhitooniga.

Statistiliste mudelite treenimiseks on korpust laiendatud valentsi- ja aktiivsuseinfoga. Korraldatud on 28 testi korpuse lausete valentsi (negatiivne, positiivne, neutraalne) määramiseks (nii lugemise kui kuulamise põhjal) ning 14 testi lause aktiivsuse-passiivsuse määramiseks (kuulamistestid). Korpusesse on lisatud kombineeritud päring: emotsionaalne valents + emotsioonikategooria, vt kombineeritud päring 

Projekti teostamiseks valisime vabavaralistest vahenditest kõnetunnuste eraldaja  openSMILE  (Eyben, Wüllmer, Schuller 2010), kuna see tarkvaraplatvorm on end õigustanud mitmes EL-i rahastatud projektis ja on jätkuvalt aktiivselt arendatav. OpenSMILE’i üks edukamaid käimasolevaid projekte on aktiivse kuulaja loomisele orienteeritud SEMAINE , mille emotsioonianalüüsimudeleid ja koodi oleme kohandanud eesti andmete töötlemiseks.  Tuvastamisel  kasutame SVM-klassifitseerijat , pilootversioonis on kasutusel kõnetunnused:

  • Signal energy
  • Loudness
  • Mel-/Bark-/Octave-spectra
  • MFCC
  • PLP-CC
  • Pitch
  • Voice quality
  • Formants
  • LPC
  • Line Spectral Pairs (LSP)

ja nende statistilisi karakteristikud (kokku 1300):

  • Means, Extremes
  • Moments
  • Peaks
  • Linear and quadratic regression
  • Percentiles
  • Durations
  • Onsets
  • DCT coefficients
  • Zero-crossings

Treenimisbaasina kasutame Eesti emotsionaalse kõne korpust. Korpust on täiendatud sama naishääle spontaanse kõne emotsioonidega (need avalikult kättesaadavad 2014. a  lõpus).

Hetkel on olemas off-line pilootversioon, mis tuvastab ühe kõneleja lausete emotsionaalse kategooria, valentsi ning aktiivsuse. Parimad tuvastustäpsused hetkel: rõõm 46% (inimtestijal keskm 76%), viha 59% (inimtestijal 74%), kurbus 51% (inimtestijal 74%), valents (positiivne-negatiivne) 71% (inimtestijal 87%), aktiivsus (aktiivne-passiivne) 68% (inimtestijal 84%).

Plaanis on reaalajas töötav emotsioonituvastaja, mida saab kohandada suvalisele kõnelejale etteantud treeningubaasi abil. Lühike ja efektiivne treeningbaas on katsetamisel.

 

Projektiga seotud tulemusi on kajastatud artiklites:

Altrov, Rene; Pajupuu, Hille, Pajupuu, Jaan (2013). The role of empathy in the recognition of vocal emotions. In: INTERSPEECH-2013: 14th Annual Conference of the International Speech Communication Association, Lyon, France, August 25-29, 2013. 1341-1344.

Altrov, Rene;Pajupuu, Hille (2013). Estonian Emotional Speech Corpus: Content and options. Julia Bamford, Silvia Cavalieri, Giuliana Diani (Toim.). Variation and Change in Spoken and Written Discourse. (109 - 122). Amsterdam: John Benjamins.

Altrov, Rene (2013). Aspects of cultural communication in recognizing emotions. Trames : Journal of the Humanities and Social Sciences, 17(67/62), 159 - 174.

Altrov, Rene;Pajupuu, Hille (2012). Estonian Emotional Speech Corpus: theoretical base and implementation. 4th International Workshop on Corpora for Research on Emotion Sentiment & Social Signals (ES3), Istanbul. (Toim.) Devillers, L.;Schuller, B.;Batliner, A.;Rosso, P.;Douglas-Cowie, E.;Cowie, R.;Pelachaud, C., 2012, 50 - 53.

Pajupuu, Hille (2012). Emotsioonid - kõnetehnoloogia olevik ja tulevik. Keel ja Kirjandus, 8-9, 629 - 643.

Pajupuu, Hille;Kerge, Krista;Altrov, Rene (2012). Detecting emotional valence of text by using a small dictionary. Elorza, I.,Carbonell i Cortés, O., Albarrán, R., García Riaza, B., Pérez-Veneros, M. (Toim.). Empiricism and Analytical Tools for 21st Century Applied Linguistics. Selected Papers from the XXIX International Conference of the Spanish Association of Applied Linguistics (AESLA) (229 - 242). Salamanca: Universidad de Salamanca.

Pajupuu, Hille;Kerge, Krista;Altrov, Rene (2012). Lexicon-based detection of emotion in different types of texts: preliminary remarks. Eesti Rakenduslingvistika Ühingu Aastaraamat, 8, 171 - 184.

Mihkla, Meelis; Hein, Indrek; Kalvik, Mari-Liis; Kiissel, Indrek; Sirts, Risto; Tamuri, Kairi (2012). Estonian speech synthesis: applications and challenges/Синтез речи эстонского языка: применение и вызовы. A. E. Kibrik (Toim.). Computational Linguistics and Intellectual Technologies, Papers from the Annual International Conference "Dialogue" (2012) (443 - 453). Moskva: РГГУ

Tamuri, Kairi (2012). Intensity of Estonian emotional speech. Human Language Technologies – The Baltic Perspective - Proceedings of the Fifth International Conference Baltic HLT 2012 (238 - 246).IOS Press.

Tamuri, Kairi (2012). Kas formandid peegeldavad emotsioone? Eesti Rakenduslingvistika Ühingu Aastaraamat, 8, 231 - 243.

Tamuri, Kairi; Mihkla, Meelis (2012). Emotions and speech temporal structure. Linguistica Uralica, 3, 209 - 217.

Tamuri, Kairi; Mihkla, Meelis (2012). Emotions and speech temporal structure. In: Fonetiikan päivät 2012 - Phonetics Symposium 2012. Proceedings: XXVII Fonetiikan päivät 2012 – Phonetics Symposium 2012. 17-18 February 2012, Tallinn, Estonia. (Toim.) Einar Meister. Tallinn: TUT Press, 2012, 55 - 60.

 

Kirjandus

 

Cowie, R., Sussman, N., & Ben-Ze’ev, A. (2011). Emotions: concepts and definitions. In R. Cowie, C. Pelachaud, & P. Petta (Eds.), Emotion- Oriented Systems: The HUMAINE Handbook. (pp. 9–31). Berlin, Heidelberg: Springer Berlin Heidelberg.

Eyben, F., Wöllmer, M., & Schuller, B. (2010). openSMILE – The Munich Versatile and Fast Open-Source Audio Feature Extractor.  Proc. ACM Multimedia (MM), ACM. (pp. 1459-1462). Florence, Italy. 

Schuller, B., Batliner, A., Steidl, S., & Seppi, D. (2011). Recognising realistic emotions and affect in speech: State of the art and lessons learnt from the first challenge. Speech Communication, 53, 1062–1087.

Tegevused dokumentidega