Delovanje današnje družbe temelji na zbiranju in analizi velikih količin podatkov. Ker sta se tako zbiranje kot hranjenje podatkov v zadnjem času zelo pocenili, navadno ne opazujemo več majhnih množic skrbno izbranih spremenljivk, temveč rutinsko zbiramo velike količine meritev. Tako ravnamo na vseh področjih, od znanosti z, na primer, sekvenciranjem celotnega genoma in opazovanja aktivnosti vseh genov hkrati, do poslovnega sveta, kjer, denimo, zajemamo posnetke cen delnic ali vrednosti tečajev v kratkih časovnih intervalih.
Načelno naj bi bili z opazovanjem velike količine spremenljivk zmožni odkriti bolj zapletene in nepričakovane vzorce v podatkih kot prej. V praksi pa je tolikšna količina podatkov videti kot ogromna kopica sena, manjkajo pa nam učinkovite metode za iskanje igel oziroma, še huje, za razlikovanje igel od slame. Gledano formalneje, trenutno uporabljene metode za odkrivanje zakonitosti iz podatkov poiščejo veliko število modelov in vzorcev, ki se enako dobro prilegajo podatkom. Čeprav je večina od njih naključnih, jih je z matematičnimi metodami nemogoče razlikovati od resničnih vzorcev.
Po našem mnenju je problem posledica trenutnega pristopa k odkrivanju zakonitosti, ki uporablja (le) podatke za sestavljanje novih teorij slaba praksa, ki so jo nekoč poimenovali "podatkovno ribarjenje". Doslej smo se težavam, ki jih povzroča ta pristop, izognili z iskanjem čim preprostejših teorij (npr. z uporabo linearnih modelov, različnih regularizacij, Occamovega načela ipd). V visoko dimenzionalnih problemih pa to ne deluje več, saj obstaja preveč enako zapletenih teorij, ki se enako dobro prilegajo podatkom.
V okviru projekta nameravamo raziskovati, po našem mnenju, edino uporabno rešitev problema. Tako kot klasična znanost ne gradi teorij zgolj iz opazovanj, mora tudi iskanje modelov, vzorcev in vizualizacij v avtomatskem odkrivanju znanj iz podatkov temeljiti na obstoječem znanju iz raziskovanega področja. To predznanje je lahko v poljubni obliki, ki opisuje povezave med spremenljivkami, na primer ontologija ali mreža entitet, ki ustrezajo spremenljivkam, korelacije med spremenljivkami, ki so znane iz preteklih poskusov, pravila, ki jih eksplicitno sestavi področni strokovnjak, ali besedila, ki so povezana s področjem in s katerimi je mogoče statistično določiti povezanost spremenljivk.
Predznanje lahko uporabimo v vseh fazah odkrivanja znanja. V projektu nameravamo razviti metode za transformacijo podatkov, ki bodo, recimo, zmanjšale dimenzionalnost podatkov tako, da bodo z uporabo predznanja sestavile nove spremenljivke iz opazovanih; ta pristop je drugačen od obstoječih tehnik zmanjševanja dimenzionalnosti, ki dimenzionalnost podatkov zmanjšuje s pomočjo podatkov samih. Razvili bomo vizualizacijske metode, ki bodo sestavljale uporabne in informativne vizualizacije na podlagi obstoječega znanja. Gradnja napovednih modelov, predvsem z metodami strojnega učenja, temelji na preiskovanju ogromnega prostora možnih modelov; tudi to iskanje lahko usmerjamo s predznanjem o povezavah med spremenljivkami. Končno, obstoječe znanje lahko uporabljamo za izbor modelov in vzorcev iz ogromne množice modelov in vzorcev, ki se enako prilegajo danim podatkom.
Pri delu se bomo zgledovali po sodobnih metodah analize genetskih podatkov, področja, ki je v zadnjem času naredilo največ za premagovanje prekletstva dimenzionalnosti, ter s statističnimi tehnikami manjšanja dimenzionalnosti in postopki za omejevanje iskanja v strojnem učenju, ki trenutno ne uporabljajo predznanja, vsaj ne na način, kot ga predvidevamo v projektu.
Razvite metode bodo implementirane v odprtokodnih paketih za odkrivanje znanja iz podatkov in tako takoj na voljo za praktično uporabo. Sprotna uporaba bo tudi olajšala testiranje in izpopolnjevanje algoritmov, ki jih bomo razvijali v okviru projekta.