Avtomatska obdelava besedil z globokim učenjem

Avtomatska obdelava besedil z globokim učenjem

Novice

Matej Klemen je mladi raziskovalec in doktorski študent na FRI. Je član Laboratorija za kognitivno modeliranje, kjer svoje raziskovalno delo opravlja na področju avtomatske obdelave besedil pod mentorstvom prof. dr. Marka Robnika Šikonje. Na Dnevu fakultete 2023 je prejel nagrado za raziskovalno delo podiplomskih študentov za članek z naslovom "Enhancing deep neural networks with morphological information", objavljenem v reviji "Natural Language Engineering".

Z Matejem smo se pogovarjali o njegovem raziskovalnem delu in izkušnjah z doktorskim študijem.

Kako je pri tebi dozorela odločitev za doktorski študij?

Moja odločitev za doktorski študij je dozorevala kar nekaj časa, ker se mi dopade tako raziskovalno kot tudi bolj produktno-usmerjeno delo. Rekel bi, da je imel kar nekaj vpliva moj mentor, ki mi je po opravljeni diplomi ponudil možnost dela v okviru raziskovalnega projekta na področju obdelave besedil. S tem sem postopoma spoznal (prej nepoznano) raziskovalno področje, predvsem pa raziskovalno delo in naloge, ki sodijo zraven. Všeč mi je bilo, da sem imel definirano vlogo, a vseeno veliko svobode pri svojem delu in definiciji svoje raziskovalne poti. Tekom magisterija se je potem pojavila priložnost, da delam kot mladi raziskovalec pri istem mentorju, kar je poleg predhodnih pozitivnih izkušenj nagnilo tehtnico v prid nadaljevanja na doktorskem študiju.

Kaj je tvoje raziskovalno področje?

Širše se ukvarjam z razvojem metod za avtomatsko obdelavo besedil s pomočjo globokega učenja, ožje pa je moje raziskovalno področje vpeljava dodatnega in pregled obstoječega znanja v jezikovnih modelih. Jezikovni modeli so naučeni na ogromnih zbirkah besedil z nalogo generiranja naslednje besede na podlagi podanega konteksta (npr. nedokončanega stavka). Da to počnejo natančno, se morajo v učnem procesu do neke mere naučiti zakonitosti jezika, kot so na primer sklanjanje, postavljanje velikih začetnic, ločil, itd. Ker je učenje netransparentno, ne vemo kakšno znanje mreže vsebujejo in za ta namen potrebujemo dodatne metode. Moje raziskovanje ima dva cilja: razviti metode, ki omogočajo vpogled v znanje, ki ga jezikovni modeli usvojijo v učnem procesu, ter na podlagi odkritih pomanjkljivosti v znanju to znanje dodatno vpeljati v jezikovne modele, da ti delujejo natančneje in/ali bolj v skladu s človeško intuicijo.

S čim se trenutno ukvarjaš?

Trenutno se ukvarjam z razvojem nove metode za merjenje občutljivosti jezikovnih modelov na različne jezikovne napake. Cilj je ugotoviti, do kolikšne mere jezikovni modeli spoštujejo slovnična pravila jezika, kot so npr. postavljanje velikih začetnic, ločil, določanje smiselnega vrstnega reda besed itd. Da zaupamo napovedim jezikovnih modelov namreč želimo, da jezikovni modeli sledijo zakonitostim jezika. Metoda bo služila odkrivanju pomanjkljivosti v znanju obstoječih jezikovnih modelov in razvoj boljših različic. Obenem bo metoda omogočila posreden vpogled v učni proces in uporabljene učne podatke, o katerih je sploh zadnje čase čedalje manj znanega.

V letu 2023 si na Dnevu FRI prejel posebno priznanje oz. nagrado za raziskovalno delo za konferenčni prispevek z naslovom Enhancing deep neural networks with morphological information. Kaj so najbolj zanimivi zaključki tega prispevka?

V članku smo v jezikovne modele na osnovi transformerjev poskusili vpeljati dodatno znanje o morfoloških lastnostih (npr. informacijo o spolu ali številu besed). Cilj je bil na ta način izboljšati točnost njihovih napovedi, kot je bilo to storjeno v preteklosti za jezikovne modele na podlagi starejše arhitekture (LSTM). Izkazalo se je, da jezikovnim modelom na podlagi transformerjev dodatno morfološko znanje ne izboljša natančnosti, po čemer sklepamo, da to znanje že vsebujejo. V članku smo eksperimente opravili za različne jezike in z različnimi nastavitvami in s tem povečali gotovost ugotovitev.

Kako so rezultati uporabni v praksi?

Rezultati so uporabni s tega vidika, da zaradi raziskave vemo več o delovanju jezikovnih modelov. Sklepamo, da se moderni jezikovni modeli na osnovi transformerjev avtomatsko uspejo iz besedil naučiti koncepta oblikovno-skladenjskih in morfoloških lastnosti. To je definitivno zaželena lastnost, saj hočemo, da so jezikovni modeli približek našega jezika in se njihova logika ujema z intuicijo. Na podlagi raziskave sicer ni nastal konkreten natančnejši model, je pa raziskava pripomogla k razumljivosti modelov, kar je pomembno za krepitev zaupanja v takšne modele in uporabo v praktičnih aplikacijah.

Kaj si želiš početi po študiju?

Raziskovalno področje na katerem delujem je zelo aktivno in vidim še veliko možnosti za nadaljnjo raziskovanje. Zaenkrat je cilj nadaljevati raziskovalno delo tudi po doktoratu. Obenem je moj načrt raziskovalno delo dopolniti tudi s pedagoškim delom. Se pa obenem vztrajno odpirajo nove priložnosti za uporabo jezikovnih modelov v produktih in ne izključujem tudi morebitne kasnejše poti v to smer.

Kaj bi svetoval vsem, ki se odločajo o nadaljevanju študija na FRI na doktorski ravni?

Doktorski študij je maraton, ne šprint. Traja več let, zato bi svetoval, da zgodaj začnejo razmišljati o raziskovalni tematiki, v kateri vidijo prihodnost in bodo zato ostali motivirani za raziskovanje tudi kasneje, ko začetno navdušenje pojenja. Poleg tega bi izpostavil pomembnost izbire udobnega delovnega okolja. S tem mislim tako na mentorja, ki ustreza tvojemu načinu dela in učenja, kot tudi ostale sodelavce, ki ti stojijo ob strani pri tvojem delu.

---

Tudi vas zanima raziskovanje? Vabljeni, da se nam pridružite na Informativnem dnevu za doktorski študijski program Računalništvo in informatika, ki bo v sredo, 3. aprila 2024, ob 16.00 v predavalnici 19, Fakultete za računalništvo in informatiko,Večna pot 113, Ljubljana.