• Šifra predmeta:63551
  • Kreditne točke:6
  • Semester: poletni
  • Vsebina

Splet je skoraj neomejen vir podatkov. Z uporabo iskalnikov, kot so Google, Bing in podobni, lahko hitro najdemo vsebine, ki nas zanimajo. Vendar je teh zelo veliko in pogosto si ne moremo privoščiti, da bi prebrali vse spletne strani, ki nam jih kot zadetke na neko poizvedbo vrne iskalnik. Rešitev so računalniški programi, ki znajo iz velikih količin nestrukturiranih ali delno strukturiranih podatkov (kar je tudi splet) izluščiti relevantne informacije in nam jih posredovati v strukturirani obliki.

CILJ PREDMETA

Cilj predmeta Iskanje in ekstrakcija podatkov s spleta je študente naučiti, kako razviti računalniške programe za iskanje po spletu (po indeksiranem in neindeksiranem delu spleta) ter kako razviti programe za ekstrakcijo strukturiranih podatkov s statičnih in dinamičnih spletnih strani. Študentje bodo spoznali osnovne koncepte spletnega iskanja in ekstrakcije podatkov s spleta ter se naučili potrebnih tehnik, ki so za to potrebne. Po uspešno opravljenem predmetu bodo sposobni samostojnega razvoja aplikacij, ki avtomatizirajo spletno iskanje in izluščijo podatke s spletnih strani, vključno z ekstrakcijo podatkov iz on-line socialnih medijev.

VSEBINA

Glavne teme, ki jih bomo obravnavali, zajemajo:

  • Poizvedovanje in iskanje po spletu (modeli poizvedovanja, odziv ustreznosti, mere za ocenjevanje točnosti poizvedb, pred-obdelava besedil in spletnih strani, latentno semantično indeksiranje, iskanje po spletu, meta iskanje...)
  • Spletno pregledovanje in indeksiranje (osnovni algoritem spletnega pajka, univerzalni spletni pajek, fokusirani spletni pajki, domenski spletni pajki) 
  • Ekstrakcija strukturiranih podatkov (indukcija ovojnice, generiranje ovojnice, samodejna izdelava ovojnice, ujemanje glede na obliko besede ali drevesne strukture...)

 

PREDZNANJA

Od študentov, ki vpišejo ta predmet, pričakujemo vsaj osnovno poznavanje programskih jezikov/tehnologij, kot so: Java, JavaScript, Python, HTML, CSS, struktura spletnih strani.  

 

OBVEZNOSTI ŠTUDENTOV

Študent bo moral za pozitivno oceno uspešno zagovarjati tri projekte (seminar) ter na pisnem izpitu zbrati vsaj 50% vseh točk.   

  • Študijski programi
  • Porazdelitev ur na semester
45
ur
predavanj
20
ur
laboratorijskih vaj
10
ur
seminarskih vaj
  • Izvajalci
Nosilec predmeta
Prostor:R2.46 - Kabinet
Asistent
Prostor:R2.42 - Laboratorij LPT