08.
jan
Zagovor magistrskega dela: Rok Nikolič
ob 11:30

Naslov magistrskega dela: Uporaba globokih genomskih modelov za taksonomsko klasifikacijo

 

Povzetek:

V magistrski nalogi smo se spopadali s problemom klasifikacije genomskih zaporedij Tobamovirusa. Tobamovirus je rastlinski RNA-virus, ki hitro mutira in lahko povzroči veliko gospodarsko škodo. V nalogi smo želeli nadgraditi obstoječi sistem klasifikacije Tobamovirusov, predvsem z vidika hitrosti delovanja in lažje uporabe, ter hkrati izboljšati klasifikacijsko točnost. Med pripravo naloge smo uspeli razviti postopek ter več vsebnikov za učenje globokih genomskih modelov v visokozmogljivi računalniški gruči. Obsežno smo testirali delovanje dveh modelov, DNABERT-2 in DNABERT-S. Kljub dobrim rezultatom med učenjem, DNABERT-2 ni dovolj dobro posploševal pri klasifikaciji genomskih zaporedij Tobamovirusa. Rezultati na končni testni množici podatkov so bili slabi. Najbolj uspešna izvedenka modela DNABERT-2 je dosegla vrednost ROC AUC 0,58, kar ni dovolj za nadaljnjo uporabo. DNABERT-S, ki je zgrajen za razločevanje med vrstami, pa je dosegel boljše rezultate. V najboljših primerih je bila njegova natančnost relativno spodbudna in primerna za nadaljnje raziskave. Najbolj uspešen model DNABERT-S je dosegel vrednost ROC AUC 0,77. Delovanje modela DNABERT-S je nepredvidljivo, kar preprečuje, da bi ga lahko uporabili kot nadomestilo trenutnemu sistemu klasifikacije.

 

Mentor: izr. prof. dr. Tomaž Curk

 

 

Komisija za zagovor:

prof. dr. Blaž Zupan (predsednik),

prof. dr. Borut Robič (član),

prof. dr. Janez Demšar (član).

 

Prostor: Diplomska soba