Naslov diplomskega dela: Analiza in primerjava uspešnosti velikih jezikovnih modelov pri generiranju spletnih aplikacij na podlagi nepopolnih pozivov
Povzetek:
Področji velikih jezikovnih modelov in razvoja aplikacij se prepletata, saj razvijalci spletnih aplikacij vse pogosteje uporabljajo velike jezikovne modele kot programerske partnerje, v namen izboljšanja svoje učinkovitosti in produktivnosti. Kljub temu ostaja neraziskano, kateri veliki jezikovni modeli resnično zagotavljajo čim večjo produktivnost, vzporedno z zadovoljivo uporabniško izkušnjo pri razvoju spletnih aplikacij. Način, s katerim smo se odločili raziskati opisan problem, je z merjenjem interakcij izbranih modelov pri avtomatskem generiranju kode (aplikacij) za izbrane probleme ter UMUX vprašalnikom uporabnikom, ki so avtomatsko generirane aplikacije tudi testirali. Uporabljeni modeli v eksperimentu so bili Claude 3.7 Sonnet, Gemini 2.5 Pro Preview in GPT-4o. Vsakemu izmed izbranih velikih jezikovnih modelov smo zadali tri probleme s pomanjkljivimi in dvoumnimi navodili za generiranje spletnih aplikacij, s katerimi lahko preverimo njihovo sposobnost generiranja aplikacij na podlagi navodil v obliki pozivov (navodil, ki jih pogosto dobijo programerji od svojih strank). Gledali smo, kako uspešni so ti modeli pri generiranju aplikacij in koliko dodatnih pozivov je bilo potrebnih za delujočo aplikacijo. Ugotovili smo, da največjo produktivnost razvijalcem prinaša Claude 3.7 Sonnet, saj je pri implementaciji zahteval najmanj posegov s strani razvijalca in je deloval najbolj samostojno. Generirane aplikacije smo nato še testirali s testiranjem uporabnikov, ki so nato odgovorili še na vprašalnik UMUX. Najboljšo povprečno UMUX oceno je imel Gemini 2.5 Pro Preview, vendar potrebuje več iteracij, kot Claude 3.7 Sonnet.
Mentor: doc. dr. Aleš Smrdel
Komisija za zagovor:
doc. dr. Žiga Emeršič (predsednik),
doc. dr. Aleš Smrdel (mentor),
doc. dr. Damjan Fujs (član).
Prostor: Predavalnica 18