12.
nov
Zagovor magistrskega dela: Katarina Milačić
ob 14:45

Naslov magistrskega dela: Povzemanje spletnih komentarjev

 

Povzetek: Povzemanje besedila je postopek krčenja besedila na tekočo krajšo različico. Ker se obseg besedilnih podatkov hitro povečuje, lahko samodejno povzemanje besedil uporabnikom prihrani čas in zmanjša kognitivno obremenitev. Naloga zahteva poznavanje besedišča in semantike. Vnaprej naučeni veliki jezikovni modeli, kot je BERT, vsebujejo obsežno znanje jezika. Uporabljajo se lahko za prenos znanja iz modelov, naučenih na jezikih, bogatih z viri, v jezike z malo viri. V tem delu za medjezikovni prenos izkoriščamo znanje dveh modelov tipa BERT: trojezičnega hrvaško-slovensko-angleškega in večjezičnega modela. Preizkušamo ekstraktivne in abstraktivne pristope povzemanja, ki razširjajo arhitekturo BERT. Modele preizkusimo na podatkovnih množicah hrvaških komentarjev, ki nimajo povzetkov. Rezultate ocenjujemo z uporabo metrik ROUGE in BERTScore ter s človeškim vrednotenjem. Naučeni abstraktivni modeli ustvarjajo dobre povzetke v jezikih, v katerih so naučeni. V jezikih, ki niso bili vključeni v učno množico so manj uspešni, zaznajo ključne besede in splošno tematiko, ampak vključujejo pa tudi napačne podatke. Modeli ekstraktivnega povzemanja so zanesljivi, dobro pokrivajo tematike ter vsebujejo dejansko pomembne stavke.

 

Mentor: prof. dr. Marko Robnik Šikonja

 

Komisija za zagovor:

prof. dr. Igor Kononenko, predsednik

prof. dr. Zoran Bosnić, član

izr. prof. dr. Polona Oblak, članica

 

Povezava do video kanala, po katerem se bo prenašal zagovor in ga bo možno spremljati, bo dodana najkasneje na dan zagovora (predvidoma 30 minut pred terminom izvedbe zagovora) na spletni strani: https://ucilnica.fri.uni-lj.si/course/view.php?id=358.