30.
jun
Zagovor doktorske disertacije - Gregor Pirš
ob 09:15

Naslov: Bayesovski modeli za multivariatne števne podatke

 

Povzetek: 

Multivariatna normalna porazdelitev predstavlja priročen pristop do modeliranja multivariatnih problemov zaradi matematične preprostosti. Velikokrat pa podatkov ne moremo dobro modelirati z multivariatno normalno porazdelitvijo. En tak primer so multivariatni števni podatki. Nekateri pristopi, ki so trivialni za zvezne podatke, so lahko veliko kompleksnejši za števne podatke. Zaradi tega so te možnosti slabše raziskane. Na primer, pri faktorski analizi je relativno preprosto zaobiti predpostavko o pogojni neodvisnosti pri zveznih podatkih, pri števnih pa to predstavlja večji izziv. Z uporabo ustreznih multivariatnih števnih porazdelitev lahko razširimo nekatere uveljavljene metode v nove smeri ocenjevanja negotovosti. V tem delu se osredotočamo na dve takšni razširitvi: a) odpraviti predpostavko o pogojni neodvisnosti v števni faktorski analizi in b) kombiniranje števnih napovedi na podlagi prileganja ustrezne multivariatne števne porazdelitve tem napovedim.

Raziskavo smo začeli z vprašanjem, kako predpostavka pogojne neodvisnosti v statični faktorski analizi vpliva na kvaliteto verjetnostnih napovedi. Implementirali smo več metod bayesovske faktorske analize in jih združili z Gaussovo kopulo v dvostopenjskem prileganju. Kopula služi iskanju kovarianc, ki jih latentna strutura ne zajame. Metode smo primerjali na sintetični in petih realnih podatkovnih množicah. Kot kritetij za primerjavo smo izbrali verjetnostne napovedi izven vzorca. Rezultati nakazujejo, da predpostavka o pogojni neodvisnosti zelo omejuje metodo v smislu njene napovedne moči. Poleg tega smo predstavili normalizacijski korak, ki nam omogoča najti razumljive latentne dimenzije v števni faktorski analizi.

V naslednji fazi smo se osredotočili na naloge, ki so vsebovale zvezne kovariate, na primer čas. V tem primeru vrednosti latentnih faktorjev niso statične, ampak jih prikažemo z gladko krivuljo, ki je odvisna od kovariata. S tem pridemo do gladkih latentnih trajektorij. Razvili smo nov bayesovski model za iskanje latentnih trajektorij in napovedovanje, primeren za uporabo s števnimi podatki. Model ne predpostavi pogojne neodvisnosti in temelji na števni faktorski analizi z Gaussovimi procesi. Slednjo smo razširili z Gaussovo kopulo, ki modelira preostalo kovarianco, ki ni zajeta v latentni strukturi. V nasprotju z dvostopenjskim prileganjem iz prejšnjega odstavka smo v tem delu združili oba elementa v enoten model. Podali smo popolnoma bayesovsko implementacijo predlaganega modela in uporabili razširjeno verjetje za sklepanje s hamiltonskim Monte Carlom. Razvito metodo smo primerjali s preostalimi faktorskimi analizami z Gaussovimi procesi na 20 sintetičnih podatkovnih množicah, iskanju latentnih moči ekip v NBA in napovedovanju števila bolezni. Rezultati kažejo, da je razvita metoda uporabna za iskanje latentne strukture in verjetnostno napovedovanje izven vzorca za multivariatne števne podatke.

V drugem delu te disertacije smo raziskali uporabo multivariatnih števnih porazdelitev pri razvoju ansambla števnih napovedi, ki temelji na modeliranju strukture napovedi, ki jih podajo različni viri. Kombiniranje klasifikatorjev je bogat vir modelov, ki kombinirajo znanje večih modelov tako, da se naučijo latentne strukture napovedi. S tem so še posebej uporabni pri kombiniranju pristranskih modelov, ali modelov s sistematičnimi napakami. Njihova učinkovitost je direktno pogojena s tem, kako dobro smo sposobni modelirati to strukturo. Najprej smo razvili novo metodo za kombiniranje klasifikatorjev, kjer smo latentno strukturo napovedi modelirali z multivariatnimi normalnimi mešanicami. Ta model je odpravil nekatere pomanjkljivosti uveljavljenih metod na področju. Izkazal se je za zelo fleksibilnega, kljub temu da je tudi robusten. Kot naslednji korak smo ta model razširili na kombiniranje števnih napovedi, tako da smo odvisno spremenljivko omejili navzgor, strukturo napovedi pa smo modelirali z ustrezno multivariatno števno porazdelitvijo. Rezultati nakazujejo, da je takšna razširitev smiselna, saj nam števni model večinoma nudi boljše verjetnostne napovedi, kljub temu da ni tako fleksibilen.

 

Komisija za zagovor: 

-     izr. prof. dr. Mojca Ciglarič, predsednica,

-     prof. dr. Janez Demšar, član,

-     izr. prof. dr. Aleš Žiberna, član,

-     assoc. prof. Valentina V. Kuskova, PhD, članica.

 

Mentor: izr. prof. dr. Erik Štrumbelj

 

Vabljeni od 9.10 dalje na spletni povezavi: Povezava do video kanala, po katerem se bo prenašal zagovor in ga bo možno spremljati, bo dodana na dan zagovora (predvidoma 30 minut pred terminom izvedbe zagovora).