20.
dec
Zagovor magistrskega dela: Pascal Palmer
ob 14:30

Naslov magistrskega dela: Učinkovito osebno podatkovno jezero za podatkovno analitiko

 

Povzetek: Pri delu z velikimi količinami podatkov se pogosto srečujemo s porazdeljenimi sistemi za shranjevanje, ki zahtevajo veliko konfiguracije in administracije (npr. Apache Hadoop). V delu obravnavamo način za postavitev osebnega podatkovnega jezera za analizo podatkov, ki ne bo zahteval veliko konfiguracije in administracije. Postavljeno podatkovno jezero je za uporabo enostavno in ga je mogoče poljubno razširiti z dodatnimi kapacitetami za shranjevanje in računskimi viri. Za vzpostavitev podatkovnega jezera smo uporabili objektno shrambo MinIO, za analizo podatkov pa smo uporabili in primerjali analitična orodja pandas, Dask in Apache Spark. Izkazalo se je, da je postavitev MinIO dokaj enostavna in da lahko z izbranimi orodji preprosto komuniciramo prek protokola S3. Pri analizi velike količine podatkov knjižnica pandas ni uspela obdelati vseh podatkov zaradi prevelike porabe pomnilnika, medtem ko sta Dask in Apache Spark z enako količino pomnilnika lahko izvedla enake ali bolj prostorsko zahtevne poizvedbe. Dask in Apache Spark sta bila podobno učinkovita pri izvajanju časovno in prostorsko intenzivnih poizvedb. Testni podatki so bili primerni tudi za relacijsko podatkovno bazo, zato smo primerjali čase poizvedb s PostgreSQL in ugotovili, da je naš pristop z uporabo MinIO in Dask ali Apache Spark za analizo podatkov veliko bolj časovno učinkovit.

 

Mentor: izr. prof. dr. Matjaž Kukar

 

Komisija za zagovor:

prof. dr. Zoran Bosnić, predsednik

izr. prof. dr. Dejan Lavbič, član

doc. dr. Aleš Smrdel, član

 

Prostor: Diplomska soba