Isiklikud vahendid
Oled siin: Algus EKT projektid Mallipõhine faktituletus tekstikorpustest Mallipõhine faktituletus tekstikorpustest (põhitulemused 2011-2012)

Mallipõhine faktituletus tekstikorpustest (põhitulemused 2011-2012)

Projekti eesmärk, metoodika ning kokkuvõte põhitulemustest.

Projekti eesmärk on luua tarkvarakomponent, mis suudab vabatekstidest õppida erinevaid seoseid ning nende abil eraldada struktureeritud infot. Seosed võivad olla lihtsad nagu isikunimed ja organisatsioonid või keerulisemad nagu firmade peakontorite asukohad.

Meetod vajab sisendiks korpust, milles on meid huvitav seos märgendatud. Seejärel leitakse automaatselt sobivad mallid ja koostatakse mudel, mis antud seost võimalikult hästi tuvastaksid. Tulemusena saame märgendamata vabatekstidest leida uusi seosele vastavaid näiteid.

Põhitulemused 2011-2012

  • Mallikaeve algoritm ning selle omaduste teoreetilised tõestused.
  • Tarkvaraprototüüp seoste märgendamiseks, treenimiseks ning kasutamiseks. Vahendid korpuste eeltöötluseks ning sobivale kujule teisendamiseks.
  • Juhtumiuuringud isikunimede, organisatsioonide ja asukohtade tuvastamiseks tekstist.
  • Juhtumiuuringud näidete poolautomaatseks laiendamiseks (aktiivõpe).

Eeldatavad tulemused 2012-2013

  • Faktituletuse algoritmide edasiarendus (korpuste eelklasterdamine, negatiivsed mallid) ning efektiivsuse hindamine.
  • Faktituletuse komponendi kasutamine NER lahenduste täiustamiseks (valepositiivsete filtreerimine).
  • Kasutajaliidese edasiarendamine ning mallide jaotuste visualiseerimine.
  • Faktituletuse meetodite kasutamine meditsiiniandmete analüüsimiseks.
Tegevused dokumentidega