26.
maj
Zagovor magistrskega dela: Rok Hudobivnik
ob 15:15

Naslov dela: Luščenje ključnih besed in razpoznavanje entitet v besedilih s portala Reddit

 

Povzetek: Cilj te naloge je bila konstrukcija postopka za luščenje pomembnih podatkov iz kratkih besedil v naravnem jeziku, bolj specifično objav s spletnega portala Reddit. Dve glavni področji naših raziskav sta bili luščenje ključnih besed in razpoznavanje entitet. Za namene naloge smo implementirali in analizirali štiri algoritme za luščenje ključnih besed (RAKE, TextRank, nevronske mreže LSTM in biLSTM) in tri algoritme za razpoznavanje entitet (modeli knjižnice Spacy, Stanford NER in umerjeni modeli BERT). Analiza algoritmov je pokazala, da dosežemo najboljše rezultate z uporabo nevronske mreže s tremi sloji biLSTM za luščenje ključnih besed, model biLSTM za male črke, umerjen na podatkovni zbirki MIT movie corpus, za razpoznavanje imen igralcev in model, umerjen na podatkovni zbirki Ontonotes 5, za razpoznavanje naslovov filmov.

 

Termin zagovora: torek, 26. 5. 2020, ob 15.15.

 

Mentor: Assoc. Prof. Dipl.-Ing. Dr.techn. Denis Helic.

 

Somentor: prof. dr. Zoran Bosnić.

 

Komisija za oceno in zagovor:

- doc. dr. Luka Čehovin Zajc (predsednik),

- doc. dr. Tomaž Hočevar (član),

- doc. dr. Slavko Žitnik (član). 

Povezava do video kanala, po katerem se bo prenašal zagovor in ga bo možno spremljati, bo dodana najkasneje na dan zagovora (predvidoma 30 minut pred terminom izvedbe zagovora) na spletni strani: https://ucilnica.fri.uni-lj.si/course/view.php?id=358