Isiklikud vahendid
Oled siin: Algus EKT projektid Mallipõhine faktituletus tekstikorpustest

Mallipõhine faktituletus tekstikorpustest

Projekti läbiviiva asutuse nimi: Tartu Ülikool

Projektijuht: Sven Laur (swen@math.ut.ee)

Meeskond: Timo Petmanson, Fanny-Dhelia Pajuste, Aleksandr Tkachenko

Projekti vajadus ja taust: Mallipõhine faktituletus on inglise keele puhul juba standardne keeletehnoloogia komponent, mis on aluseks erinevate vabatekstiliste korpuste pealt ontoloogiate ning teadmusbaaside loomisel. Sarnane komponent on vajalik ka eesti keele jaoks.

Projekti eesmärgid: Tarkvarakomponent suudab vabatekstidest õppida erinevaid seoseid ning nende abil eraldada struktureeritud infot. Seosed võivad olla lihtsad nagu isikunimed ja organisatsioonid või keerulisemad nagu firmade peakontorite asukohad.

Meetod vajab sisendiks korpust, milles on meid huvitav seos märgendatud. Seejärel leitakse automaatselt sobivad mallid ja koostatakse mudel, mis antud seost võimalikult hästi tuvastaksid. Tulemusena saame märgendamata vabatekstidest leida uusi seosele vastavaid näiteid.

Põhitulemused 2011-2012:

  • Mallikaeve algoritm ning selle omaduste teoreetilised tõestused.
  • Tarkvaraprototüüp seoste märgendamiseks, treenimiseks ning kasutamiseks. Vahendid korpuste eeltöötluseks ning sobivale kujule teisendamiseks.
  • Juhtumiuuringud isikunimede, organisatsioonide ja asukohtade tuvastamiseks tekstist.
  • Juhtumiuuringud näidete poolautomaatseks laiendamiseks (aktiivõpe).

Põhitulemused 2012-2013:

  • Faktituletuse algoritmide edasiarendus (korpuste eelklasterdamine, alternatiivsed mallikaevemeetodid) ning efektiivsuse hindamine.
  • Mallide jaotuste visualiseerimine.
  • Olemituvastuse jaoks vajalike liittunnuste otsimine.
  • Faktituletuse meetodite kasutamine meditsiiniandmete analüüsimiseks.
Tegevused dokumentidega