Isiklikud vahendid
Oled siin: Algus EKT projektid Autentse meditsiinikeele korpuse alusel radioloogia elektroonse piltsõnastiku koostamine

Autentse meditsiinikeele korpuse alusel radioloogia elektroonse piltsõnastiku koostamine

Projekti läbiviiv asutus

Tartu Ülikool (Eesti ja üldkeeleteaduse instituut)

 

Projektijuht ning tema e-posti aadress

Eola Valdre, eola@valdre.com

 

Projekti läbiviiv meeskond

Heiki-Jaan Kaalep, Peeter Ross, Katrin Tsepelina, Kaarel Veskis, Pilvi Ilves

 

Projekti vajadus ja taust

Digiajastu on jõudnud meditsiini: Eestis koostatakse ja säilitatakse patsiendi terviseandmed elektrooniliselt ning neid kasutatakse digikeskkonnas. Terviseandmete registreerimine, säilitamine ja analüüs on tähtis nii patsiendi diagnostika ja ravi kui ka rahvatervise ja teadusuuringute jaoks. Haiglainfosüsteemid mõjutavad oluliselt töökeskkonna kirjakeele kasutust.

Infosüsteemis on osa terviseandmeid kodeeritud ja struktureeritud ning osa on vabatekstilised. Vabatekstid on arvutipõhiseks automaatseks andmeanalüüsiks ja -töötluseks tüsilikud: neis on palju osaliselt arstide tööolukorrast tingitud ebakonventsionaalsust: arbitraarset lühendamist, võõrkeelseid termineid, sünonüüme, vigast kirjakeelt näpuvigadest ebahariliku lauseehituseni. Andmekaeve ja/või -analüüs patsiendi haiguskulu jälgimise ja/või patsiendi- või haigusrühma uurimise eesmärgil tingivad ka vabatekstilise andmeesituse suurema ühtlustamise ja struktureerimise vajaduse. Üleriigiline e-tervise infosüsteem võimaldaks suurtes andmemassiivides kätketud teabe paremat analüüsi, kuid erinevalt numbrilistest või kodeeritud andmetest raskendab mitmetähenduslikku tõlgendust lubav vabatekst automaatset andmekäsitlust. Terviseandmete esituse standardimiseks on vaja autentset meditsiinikeelt uurida asjakohaste keeleressursside põhjal, akadeemilised toimetatud tekstid ei kajasta reaalselt haiguslugude kandeid.

Lingvistiliseks analüüsiks on vaja representatiivset keelekorpust, mis koosneks isikustamata tekstidest, mida ei saa seostada konkreetse patsiendiga. Valisime korpuse tegemiseks radioloogilised kirjeldused, sest nende arv on väga suur: hinnanguliselt moodustavad need Eesti e-tervise infosüsteemi tekstidest pea 30%, haiguslugudes on osakaal 5–10% (P. Ross). Kirjelduste kliiniline sisu piiritletud: seda kitsendavad uuringu liik, konkreetsed ruumisuhted (nt kehapool, kiire kulg jne), anatoomilised struktuurid ja sageli seotus kindla patoloogiaga. Vähetähtis polnud valiku tegemisel ka projektis osalevate arstide valdkonnapädevus.

Eestis ei ole autentset meditsiinikeelt varem uuritud. Tegu on mittestandardse kirjakeelega (E. Valdre magistritöö, TÜ 2010, http://dspace.utlib.ee/dspace/bitstream/handle/10062/17232/Valdre_Eola.pdf?sequence=1 ), mille kirjeldamiseks olemasolevad korpused (sh „Eesti Arsti" korpus, K. Veskis) ei sobi. Korpuse analüüs ja radioloogiasõnastik kui toote prototüüp võimaldaksid teiste meditsiinivaldkondade terminoloogia andmebaaside hõlpsamat loomist ja keelekasutuse uurimist (lühendamine, sünonüümia jne). Autentse meditsiinikeele uurimine võimaldab tulevikus patsiendile mõistetavat terviseandmete esitust; andmekaeve, analüüsi ja tõlkerakenduste loomist ning toetab omakeelset arstiteadust ja keelekasutuse ühtlustamist.

 

Koostööpartnerid ja seonduvad projektid

Tartu Ülikool (Eesti ja üldkeeleteaduse instituut)

AS Ida-Tallinna Keskhaigla

TTÜ kliinilise meditsiini instituut

SA Tartu Ülikooli Kliinikumi radioloogiakliinik (alates 2012)

 

Uuringul on Tallinna Meditsiiniuuringute Eetikakomitee luba otsusega nr 2169.

 

Projekt on TÜ Eesti ja üldkeeleteaduse instituudi, AS Ida-Tallinna keskhaigla ja TTÜ kliinilise meditsiini instituudi koostöös valmiva doktoritöö „Eestikeelsete autentsete meditsiinitekstide kui meditsiini allkeele uurimine: mitmetähenduslikkuse allikad ning sünonüümia ja tähenduse vahekord“ (E. Valdre; juh. H.-J. Kaalep, P. Ross) osa.

 

Projekti kestus on 4 aastat.

 

Projekti eesmärgid

Projekt on keeleressursse loov: koostatakse autentse eesti meditsiinikeele korpus, mida kasutatakse radioloogia elektroonse piltsõnastiku loomisel, ja võrdlusmaterjali korpus arstiteaduskonna radioloogialoengutest. Põhieesmärgid hõlmavad programmi „Eesti keeletehnoloogia 2011 2017“ kaht alategevust: eesti teaduskeele korpuse koostamist ning elektroonsete sõnastike ja ontoloogiliste andmebaaside arendust, standardimist ning avaliku kasutuse võimaldamist. Lähtudes eelpool öeldust, on projekti lõppeesmärgiks koostada autentse eesti meditsiinikeele korpuse alusel vabakasutuseks radioloogia elektroonne piltsõnastik. Lühimõju seisukohast on piltsõnastik asjakohane õppevahend. Arvestades terminoloogia esitamist eesti, ladina ja inglise keeles ning ka lühendite täispikkade vastete andmist on tegu ka konventsionaalse tõlkeabivahendiga. Lisaks võimaldab mõistete seotus pildiga kasutada sõnastikku abivahendina pildi tõlkimisel tekstiks ja/või kliinilisel tõlgendamisel.

Projekti kaugmõju seisneb meditsiinikeele uurimise metoodika arendamises ning võimaluses kasutada sarnast lähenemisviisi teiste meditsiinivaldkondade töökeskkonna erialakeele uurimiseks rakenduslikel eesmärkidel (e-tervise infosüsteemid, tõlkerakendused).

 

Projekti planeeritud tulemused

Autentsete radioloogiliste kirjelduste korpus (2011)

Võrdluskorpus radioloogialoengutest (2012)

Pildikogu sõnastiku tarbeks (2012 –2013)

Radioloogias kasutatavate lühendite analüüs (sh kasutussagedus) (2012 –2013))

Radioloogia terminite (sh sünonüümide) analüüs (sh kasutussagedus) (2013 –2014)

Elektroonne piltsõnastik (2014)

 

Projekti senised tulemused

 

Tulemused 2011. a

Koostasime radioloogiliste uuringute vastuste vabatekstidest koosneva korpuse. Tegemist on unikaalse materjaliga, mis kajastab erialase kirjakeele tegelikku kasutust radioloogi töökeskkonnas. Materjali saamiseks tehti isikustamata andmepäring AS Ida-Tallinna Keskhaigla infosüsteemi radioloogiamoodulist. Isikustamata päring tagas, et konkreetset patsienti ei ole võimalik päringuandmetega seostada. Päring hõlmas ajavahemikku 01.07.2009–01.07.2011 ja sisaldas järgmisi andmeid: uuringu nimetus (sh haigekassa kood ja uuritav piirkond), uuringu unikaalne identifikatsiooninumber, patsiendi vanus, patsiendi sugu, uuringu tellija (arst, raviasutus või osakond), tellimuse aeg, vastuse aeg, vastaja, kliiniline küsimus (sh kuvatav piirkond), kokkuvõte ja vastus (asjakohaste kliiniliste andmete ja radioloogilise leiu kokkuvõtlik kirjeldus). Lingvistiliseks analüüsiks on korpuses praegu järgmised andmeväljad: uuringu identifikatsiooninumber, kokkuvõte ja vastus. Korpuses on kasutatud 207 534 radioloogilise uuringu teksti, kokku 11,8 miljonit sõnet. Materjal jaguneb järgmiselt: röntgenuuringud (139 998 uuringut, kokku 4 663 958 sõnet), ultraheliuuringud (34 020 uuringut, kokku 2 970 399 sõnet), kompuuteruuringud (20 725 uuringut, kokku 2 751 990 sõnet), magnetuuringud (11 037 uuringut, kokku 1 293 070 sõnet), stsintigraafiauuringud (1754 uuringut, kokku 185 939 sõnet). Korpus on teisendatud XML-i (http://www.w3.org/2001/XInclude), märgendatud ja valideeritud TEI P5 järgi (http://www.tei-c.org/).

Lisaks autentse meditsiinikeele korpusele koostati kogu ka nn uuringuvastuste tüüpväljendeid sisaldavatest valmis põhjadest, mida radioloogid kasutavad igapäevatöös vastuse kirjutamise kiirendamiseks.

 

Tulemused 2012. a

Koostöös Tartu Ülikooli Kliinikumi radioloogiakliinikuga (P. Ilves) koostasime võrdlusmaterjali korpus arstiteaduskonna III ja VI kursuse loengutest. (III kursuse materjalid tutvustavad radioloogiat ja radioloogiameetodeid, VI kursuse materjalid on kliinilised: loengud selgitavad meetodite kasutusnäidustusi, uuringutega seotud ohte ja uuringutulemuste tõlgendamist konkreetsete haigusseisundite korral.) Korpuse aluseks on loengufailid PowerPoint-vormingus (kokku 2458 slaidi), mis sisaldavad nii teksti (70000 sõnet) kui ka illustratiivset materjali (joonised, tabelid, radioloogilised kujutised). Korpuse tekst on järgides lause- ja/või visuaalse esitusüksuse piire slaidihaaval käsitsi segmenditud, korpus teisendatakse XML-i, märgendatakse ja valideeritakse TEI P5 alusel.

Koostatud on röntgendiagnostika normaalse radioloogilise anatoomia mõisteid anatoomilise piirkonna kaupa kirjeldavate terminikogu (k.a sünonüümid), mis on seotud konkreetsete radioloogiliste piltidega. See tähendab, et konkreetsetel röntgenpiltidel olevad anatoomilised struktuurid on esitatud tekstina radioloogilise anatoomia andmetabelis. Tabelis on järgmised andmeväljad (tabeli veergudena): uuringu nimetus (nimetusse on kodeeritud modaliteet, piirkond, projektsioon, asend, kehapool, sugu), modaliteet, piirkond, alapiirkond, uurimistehnika, projektsioon (põhitermin ja kuni kaks sünonüümi), projektsiooni täpsustus (põhitermin ja kuni kaks sünonüümi), kiire suund, patsiendi asend, sugu, lateraalsus kehapoole suhtes, lateraalsus keha kesktelje/-punkti suhtes, leid, kirjeldatavad struktuurid pildil (põhitermin ja kuni neli sünonüümi), mõõde, pildiviit (asukoht pildiarhiivis). Koostatud on normaalanatoomiat kirjeldav pildikogu. Olemasolevat materjali on kasutatud AS Ida-Tallinna Keskhaiglas radioloogiaresidentide õppetöös.

2011. a autentsete radioloogiatekstide korpuse alusel on tehtud lühendite ja lühendamise analüüs. Ühetähenduslikest lühenditest on koostatud eraldi sõnastikukannete alusfail.

Tegevused dokumentidega