Naslov magistrskega dela: Odgovaranje na vprašanja iz starih virov z velikimi jezikovnimi modeli
Povzetek:
Z razmahom umetne inteligence in področja obdelave naravnega jezika so
modeli naučeni na ogromnih zbirkah besedil. Vendar pa velik del zgodovin-
skih virov in znanja ostaja neizkoriščen zaradi pomembnih razlik v besedišču,
jezikovni strukturi in slogu pisanja. V tem delu obravnavamo zgodovinska
besedila in dokumente v manj razvitih jezikih, s poudarkom na slovenščini. Z
uporabo digitaliziranega korpusa dokumentov v zgodovinski slovenščini smo
generirali podatkovno množico vprašanj in odgovorov z uporabo GaMS (Ge-
nerativni Model Slovenščine). Našo raziskavo zgodovinske slovenščine smo
podprli z več metodologijami, kot so prilagojeni veliki jezikovni modeli, Pa-
geIndex RAG (Retrieval-Augmented Generation) ter pristop RAG z uporabo
hibridnega iskalnika, razširjenega z različnimi vektorskimi vložitvami, kot so
Sentence BERT, F2LLM in naš lastni prilagojen model. Rezultati so poka-
zali, da je model GaMS3 najprimernejši za generiranje kakovostne množico
vprašanj in odgovorov iz zgodovinskih podatkov ter najboljši za odgovarja-
nje na vprašanja, medtem ko je hibridni iskalnik, nadgrajen z vektorskimi
vložitvami, izračunanimi z lastnim prilagojenim modelom, najprimernejši za
naloge iskanja.
Mentor: prof. dr. Marko Robnik Šikonja
Komisija za zagovor:
izr. prof. dr. Matjaž Kukar (predsednik),
izr. prof. dr. Tomaž Curk (član),
izr. prof. dr. Slavko Žitnik (član).
Prostor: Diplomska soba