Naslov diplomskega dela: Izboljšanje poslovanja malih trgovcev s pomočjo računalniškega vida
Povzetek:
V diplomski nalogi primerjamo pet lahkih modelov za zaznavanje objektov –YOLOv8n, YOLOv8s, YOLOv5n, NanoDet-Plus in MobileSAM – v kontekstu maloprodajnega videonadzora. Modele ocenimo na podmnožici testne množice COCO 2017, ki zajema 2693 slik z oznakami razreda oseb, z uporabo prednaučenih uteži na prenosnem računalniku Apple MacBook Pro z M2 Max procesorjem. Primerjamo jih po petih merilih: hitrosti izvajanja (FPS), točnosti (mAP@0,5, mAP@0,5:0,95), povprečnem priklicu (AR@0.5), velikosti modela in računski zahtevnosti (GFLOPs).
Rezultati kažejo, da je NanoDet-Plus najhitrejši model (66,0 FPS) z najnižjo računsko zahtevnostjo (2,97 GFLOPs), vendar z nižjo točnostjo, še posebej pri strogem merilu mAP@0,5:0,95 (19,97 %). YOLOv8s dosega najboljšo točnost (mAP@0,5 = 70,26 %), a pri nižji hitrosti (19,6 FPS). Za celostno najboljše razmerje med hitrostjo in točnostjo se izkaže YOLOv8n (30,0FPS, mAP@0,5 = 64,36 %), ki ponuja dobro ravnovesje za uporabo v maloprodajnem okolju na napravah z omejenimi viri. YOLOv5n je najkompaktnejši model (1,9 M parametrov, 4,0 MB), primeren za okolja z zelo omejenimi viri pomnilnika. MobileSAM kljub dodani segmentacijski zmogljivosti ni konkurenčen čistim detektorjem v hitrosti izvajanja (2,7 FPS).
V nalogi podrobno opišemo arhitekturne razlike med modeli, izzive pri implementaciji enotnega merilnega cevovoda ter analiziramo razmerja med posameznimi metrikami. Ugotovitve so relevantne za načrtovalce sistemov računalniškega vida, ki izbirajo med različnimi lahkimi detektorji za namestitev na edge napravah v maloprodajnem okolju.
Mentor: doc. dr. Luka Šajn
Komisija za zagovor:
doc. dr. Aleš Jaklič, predsednik
doc. dr. Blaž Meden, član
doc. dr. Luka Šajn, mentor
Prostor: https://meet.google.com/kst-wbdp-cqk