• Strojno učenje neuravnoteženih podatkov
Naročnik: Javna agencija za raziskovalno dejavnost RS
Tip projekta: Bilaterarni projekti
Trajanje projekta: 2010 - 2011
  • Opis

Namen sodelovanja je razvoj in testiranje nove skupine metod za ocenjevanje atributov, ki temelji na merah razdalje in uniformnosti predhodne porazdelitve. Ta novi pristop se je v preliminarnih študijah izkazal kot izredno perspektiven za probleme z neuravnoteženimi podatki. Razvili bomo več osnovnih cenilk atributov in njihove večrazredne posplošitve. Za namene testiranja bomo konstruirali kompleksne umetne domene, kar nam bo omogočilo preveriti širok spekter delovanja razvitih metod. Najuspešnejše med razvitimi metodami bomo implementirali v okviru že razvitega uspešnega učnega sistema temelječega na naključnih gozdovih. Pristope bomo testirali tudi na praktičnih problemih v medicini in financah.

Za praktično uporabnost navedenih znanstvenih ciljev je potrebno razviti hitre in učinkovite algoritme in dobra orodja za podatkovno analizo. Med znanstveniki in uporabniki tehnik podatkovnega rudarjenja se je uveljavilo odprtokodno statistično okolje R, predvsem zaradi široke uporabnosti, preprostosti uporabe in dobrih možnosti vizualizacije. V okviru projekta nameravamo razviti metode v tem okolju in tako omogočiti njihovo takojšnjo znanstveno in komercialno rabo. Pričakujemo, da bodo skupni napori prinesli pomembna spoznanja, ki bodo praktično in znanstveno pomembna za področje napredne analize podatkov in reševanja neuravnoteženih klasifikacijskih problemov, še posebej v medicini, financah, javnem sektorju, strojništvu in tehnologiji.