Kvalitativno modeliranje na osnovi podatkov

Kvalitativni modeli so modeli, ki za razliko od klasifikacijskih in regresijskih, ki napovedujejo razrede in zvezne količine opisujejo kvalitativne povezave med opazovanimi spremenljivkami. Kvalitativna zveza je npr. y=Q(+x), kar preberemo "y narašča z x". Kvalitativni modeli navadno vsebujejo tudi pogoje, pri katerih relacije veljajo, denimo, y=Q(-x, +z), če x<12 ter y=Q(-z) sicer.

Čeprav takšni modeli za razliko od regresijskih ne napovedujejo točne, numerične vrednosti spremenljivk, imajo pred slednjimi tudi več prednosti. Kvalitativna predstavitev je blizu človeškemu načinu razmišljanja ("bolj ko dežuje, bolj bom moker" in ne "količina vode v obleki znaša 0.35 l/cm × rt, kjer je r intenzivnost padavin v cm/h in t čas preživet na dežju"), zato so takšni modeli pogosto lažje razložljivi in ekspertu povedo več od regresijskih. Navadno so tudi robustnejši od regresijskih, saj je zveza, ki jo modelirajo, preprostejša, zato se lahko uporabljajo tudi kot korak pred regresijskim modeliranjem, tako da kvalitativni model opiše omejitve, ki se jih mora držati regresijski model (Šuc, 2004).

Kljub odličnim lastnostim kvalitativnih modelov še ni učinkovitih algoritmov za njihovo avtomatsko sestavljanje iz podatkov. Ena redkih metod s tega področja, QUIN (Šuc, 2001), gradi drevesa, podobna klasifikacijskim drevesom, le da imajo v svoji listih namesto razredov kvalitativne omejitve. Pri njegovi uporabi na različnih praktičnih problemih (Žabkar 2005, 2006) pa smo zaznali precej pomanjkljivosti. Algoritem je zelo počasen pri večjem številu spremenljivk. Neupoštevanje posebne vloge spremenljivke, ki predstavlja čas, zmanjšuje njegovo prikladnost za modeliranje dinamičnih sistemov. Ker temelji na meri nečistočeje, je omejen na konstrukcijo drevesnih modelov, ki pogosto niso primeren modelni jezik v resničnih problemih. In, končno, formalna definicija QUINovih omejitev ne sledi matematični definiciji odvoda.

Opisane težave je mogoče rešiti s povsem novim pristopom h kvalitativnemu modeliranju, ki bo temeljil na aproksimaciji parcialnih odvodov na vzorčeni večdimenzionalni funkciji. Postopek izračuna parcialni diferencialni odvod v vsaki posamezni točki s pomočjo točk v okolici, pri čemer je okolica definirana bodisi s pomočjo triangulacije ali glede na bližino ôsi, v smeri katere računamo odvod. Izračunane odvode lahko obravnavamo numerično ali pa opazujemo le njihov predznak in tako dobimo kvalitativni parcialni odvod v vsaki točki. Tako pripravljene podatke lahko modeliramo s poljubno metodo strojnega učenja ali pa jih prikažemo s primerno vizualizacijsko metodo.

Kot prototip za preskus gornje ideje smo razvili algoritem imenovan Pade (Žabkar 2007a). Poskusi kažejo, da deluje hitro in zanesljivo tudi na težkih sintetičnih domenah, kot je funkcija sin(x)sin(y) prek več period. Že v obstoječi obliki ga uporabljamo tudi v evropskih projektih XPERO in XMEDIA.

V okviru projekta nameravamo idejo teoretično raziskati in nato razviti postopke, s katerimi jo bo mogoče uporabljati na praktičnih problemih. Predvidena raziskovalna področja obsegajo:

osnovno računanje parcialnih odvodov, kakor je opisano zgoraj; potrebno je raziskati vplivp osameznih argumentov metode in nato dopolniti obstoječi prototip do končne verzije;

posredno parcialno odvajanje, kjer je na voljo posebna spremenljivka, čas, vse ostale pa so njene funkcije, zato je parcialni odvod smiselno računati posredno prek časa;

upoštevanje diskretnih spremenljivk in odvajanje po njih; zvezna funkcija, ki jo želimo odvajati, je pogosto odvisna diskretnih spremenljivk, ki jih QUIN ni znal obravnavati, Pade pa jih zna v nekaterih različicah upoštevati v definiciji sosednosti, ne zna pa po njih odvajati;

ugotavljanje primernosti različnih algoritmov strojnega učenja za sestavljanje kvalitativnih modelov iz podatkov, kakršne pripravijo zgoraj naštete metode;

kvalitativno-kvantitativne pretvorbe, s katerimi iz kvalitativnega modela in podatkov dobimo numerični model; pri tem se bomo osredotočili na postopke, katerih rezultat je simbolični model; nekaj začetnih rezultatov na tem področju smo že objavili (Žabkar 2007b);

samo-ocenjevanje zanesljivosti dobljenih rezultatov; predpostavljamo, da bo to mogoče izvesti s statističnimi merami (linearna korelacija) in opazovanjem gostote pokritosti prostora v okolici točke, kjer računamo odvod.

Uporabnost razvitih metod bomo preskušali tako na sintetičnih podatkih kot predvsem na podatkih iz industrije, medicine in od drugod. Vse metode bodo implementirane v okviru sistema Orange (Demšar, 2004) in prosto dostopne potencialnim uporabnikom.

Tema projekta delno sovpada s predvideno temo doktorske disertacije Jureta Žabkarja, raziskovalca na Fakulteti za računalništvo, katerega somentor je vodja predlaganega projekta in ki je na tem področju že delal. Na projektu bodo sodelovali tudi drugi do in podiplomski študenti, pri testiranju metod pa tudi partnerji, s katerimi sodelujemo v okviru različnih evropskih projektov.

Razvite metode bodo imele velik praktični pomen, saj so kvalitativni modeli med drugim uporabni v

industriji, kjer lahko z njimi opazujemo vpliv posameznih vhodnih parametrov postopka na vedenje ali kvaliteto produkta (Vladušić, 2006)

ekonomiji in sociologiji (Samuelson, 1947), kjer lahko, podobno, napovedujemo vplive dejavnikov na določeno merjeno količino ali ob upoštevanju časa, napovedujemo prihodnje trende v odvisnosti od različnih spremenljivk

v naravoslovnih vedah, denimo meteorologiji (Žabkar 2005) ali biologiji, medicini, kjer nam kvalitativno opazovanje relacij med geni lahko razkrije njihove medsebojne odvisnosti

in drugje. Implementirane postopke bomo uporabljali tudi pri pedagoškem procesu na Fakulteti za računalništvo, tako v okviru predavanj iz umetne inteligence kot pri izdelavi seminarskih in diplomskih nalog s področja modeliranja na osnovi podatkov.

Bratko (2003) I. Bratko, D. Šuc: Learning qualitative models. AI Mag., vol. 24, no. 4, str. 107-119.

Demšar (2004) J. Demšar, B. Zupan. From experimental machine learning to interactive data mining. Laboratorij za umetno inteligenco, Fakulteta za računalništvo in informatiko, Ljubljana.

Samuelson (1947) P. A. Samuelson: Foundations of Economic Analysis, Harvard University Press.

Šuc (2004) D. Šuc, D. Vladušić, I. Bratko: Qualitatively faithful quantitative prediction, Artificial Intelligence, 2004, vol. 158, no. 2, str. [189]-214.

Vladušić (2006) D. Vladušić, D. Šuc, I. Bratko, W. Rulka: Q2 learning and its application to car modelling. Appl. artif. intell., Sep. 2006, vol. 20, no. 8, str. [675]-701

Žabkar (2005) J. Žabkar in sod.: Hydrological modelling of Savinja river using machine learning methods, Proceedings of European Conference on Ecological Modelling 05.

Žabkar (2006) J. Žabkar in sod.: Q2 prediction of ozone concentrations, Ecological Modelling, 2006, vol. 191, no. 1, str. [68]-82.

Žabkar (2007a) J. Žabkar, I. Bratko, J.Demšar: Learning Qualitative Models through Partial Derivatives by Pade, Proceedings of Qualitative Reasoning 07.

Žabkar (2007 b) J. Žabkar, A. Sadikov, I. Bratko, J. Demšar: Qualitatively Constrained Equation Discovery. Proceedings of Qualitative Reasoning 07.vizualizacijsko metodo.

Sodelavci na projektu