J2-2501 - Globoki generativni modeli za lepotno in modno industrijo (DeepBeauty)

Napredki v umetni inteligenci (UI) in globokem učenju so pomembno prispevali k razvoju nedavnih globokih generativnih modelov, ki so dandanes zmožni generirati fotorealistične in vizualno prepričljive slike različnih objektov in celo kompleksnih scen. Zlasti na izbranih področjih aplikacij (npr. aplikacije, povezane z obrazi), kjer je na voljo zadostna količina učnih podatkov, se v literaturi poroča o zavidljivih rezultatih z osupljivo vizualno kakovostjo. Zaradi narave teh modelov, je poleg generiranje umetnih slik mogoče tudi spreminjanje (oz. urejanje, editiranje) določenih vizualnih lastnosti slike na vizualno prepričjiv način.

Generiranje slik in samodejni postopki za njihovo editiranje so ključnega pomena za aplikacije na najrazličnejših področjih, kot so avtonomna vožnja, robotika, nadzor kakovosti, proizvodni procesi, oblikovanje, zabavna industrija, animacija, socialni mediji in druga. Še posebej privlačni so tukaj postopki za generiranje in editiranje slik, v katerih je v središču človek (npr. ustvarjanje in editiranje obrazov in teles) in jih je moč uporabiti v lepotni in modni industriji. Takšni postopki zagotavljajo razvoj aplikacij, ki uporabnikom omogočajo virtualno pomerjanje oblačil, modnih dodatkov, ličil ali različnih pričesk. Tehnologija za virtualno pomerjanje nima le velikega tržnega potenciala, ampak lahko spremeni način nakupovanja lepotnih izdelkov in oblačil današnjih potrošnikov, hkrati pa prihrani stroške trgovcem.

Na pomembnost takšne tehnologije kažejo, na primer, podatki o spletni prodaji oblačil in dodatkov (brez lepotnih izdelkov), ki naj bi samo v ZDA dosegla 145 milijard dolarjev v letu 2023 v primerjavi s 96 milijardami dolarjev v letu 2016. Čeprav je glavno gonilo rasti spletne prodaje predvsem ugodnost spletnega nakupovanja, pa rast tega sektorja še vedno omejuje negotovost potrošnikov o izgledu določenega modnega izdelka na potrošnikih samih (in ne obdelanih slikah modnih modelov). Tehnologija za virtualno pomerjanje lahko tako izboljša izkušnjo potrošnikov pri spletnem nakupovanju ter hkrati usmeri nov promet na spletne platforme različnih blagovnih znamk iz modne in lepotne industrije.

Kljub izjemni tržni vrednosti ter potencialnim družbeno-ekonomskim in okoljskim učinkom, pa trenutno stanje tehnologije za generiranje in editiranje slik še vedno zavira širšo uporabo aplikacij za virtualno pomerjanje. Obstoječi izdelki na tem področju običajno temeljijo na 3D modelih, tridimenzionalnem modeliranju oblike telesa in računsko zahtevni računalniški grafiki, ki zahtevata specializirano strojno opremo in namensko opremo za zajemanje slikovnih podatkov, kar posledično omejuje možnosti uporabe tehnologije v praksi.

V okviru predlaganega temeljnega raziskovalnega projekta Globoki generativni modeli za lepoto in modo (DeepBeauty) bomo raziskovali tehnologije ustvarjanja in editiranja slik s posebnim poudarkom na metodologijah globokega učenja, ki so se v zadnjem času izkazale kot izredno priročno in učinkovito orodje za generativne naloge računalniškega vida. Temeljni cilj je razviti nove (fleksibilne in robustne) mehanizme za editiranje slik (brez eksplicitnega 3D modeliranja), prilagojene potrebam lepotne in modne industrije, sposobne spremeniti določene dele vhodnih slik v skladu z vnaprej definiranim ciljnim izgledom (npr. določen makeup, izgled modela, ki nosi modni izdelek, oblačilo ali dodatek). Glavni oprijemljiv rezultat projekta bo nova in robustna tehnologija za virtualno pomerjanje, ki bo temeljila na izvirnih pristopih editiranja obraza in telesa. Razvita tehnologija bo zmožna editirati slike na fotorealističen način, hkrati pa bo ohranila celostni vizualni izgled oseb na slikah.

=====

Napredki v umetni inteligenci (UI) in globokem učenju so pomembno prispevali k razvoju nedavnih globokih generativnih modelov, ki so dandanes zmožni generirati fotorealistične in vizualno prepričljive slike različnih objektov in celo kompleksnih scen. Zlasti na izbranih področjih aplikacij (npr. aplikacije, povezane z obrazi), kjer je na voljo zadostna količina učnih podatkov, se v literaturi poroča o zavidljivih rezultatih z osupljivo vizualno kakovostjo. Zaradi narave teh modelov, je poleg generiranja umetnih slik mogoče tudi spreminjanje (oz. urejanje, editiranje) določenih vizualnih lastnosti slike na vizualno prepričjiv način.

Generiranje slik in samodejni postopki za njihovo editiranje so ključnega pomena za aplikacije na najrazličnejših področjih, kot so avtonomna vožnja, robotika, nadzor kakovosti, proizvodni procesi, oblikovanje, zabavna industrija, animacija, socialni mediji in druga. Še posebej privlačni so tukaj postopki za generiranje in editiranje slik, v katerih je v središču človek (npr. ustvarjanje ter editiranje obrazov in teles) in jih je moč uporabiti v lepotni in modni industriji. Takšni postopki zagotavljajo razvoj aplikacij, ki uporabnikom omogočajo virtualno pomerjanje oblačil, modnih dodatkov, ličil ali različnih pričesk. Tehnologija za virtualno pomerjanje nima le velikega tržnega potenciala, ampak lahko spremeni način nakupovanja lepotnih izdelkov in oblačil današnjih potrošnikov, hkrati pa prihrani stroške trgovcem.

Na pomembnost takšne tehnologije kažejo na primer podatki o spletni prodaji oblačil in dodatkov (brez lepotnih izdelkov), ki naj bi samo v ZDA dosegla 145 milijard dolarjev v letu 2023 v primerjavi s 96 milijardami dolarjev v letu 2016. Čeprav je glavno gonilo rasti spletne prodaje predvsem ugodnost spletnega nakupovanja, pa rast tega sektorja še vedno omejuje negotovost potrošnikov o izgledu določenega modnega izdelka na potrošnikih samih (in ne obdelanih slikah modnih modelov). Tehnologija za virtualno pomerjanje lahko tako izboljša izkušnjo potrošnikov pri spletnem nakupovanju in hkrati usmeri nov promet na spletne platforme različnih blagovnih znamk iz modne in lepotne industrije.

Kljub izjemni tržni vrednosti ter potencialnim družbeno-ekonomskim in okoljskim učinkom, pa trenutno stanje tehnologije za generiranje in editiranje slik še vedno zavira širšo uporabo aplikacij za virtualno pomerjanje. Obstoječi izdelki na tem področju običajno temeljijo na 3D modelih, tridimenzionalnem modeliranju oblike telesa in računsko zahtevni računalniški grafiki, ki zahtevata specializirano strojno opremo in namensko opremo za zajemanje slikovnih podatkov, kar posledično omejuje možnosti uporabe tehnologije v praksi.

V okviru predlaganega temeljnega raziskovalnega projekta Globoki generativni modeli za lepoto in modo (DeepBeauty) bomo raziskovali tehnologije ustvarjanja in editiranja slik s posebnim poudarkom na metodologijah globokega učenja, ki so se v zadnjem času izkazale kot izredno priročno in učinkovito orodje za generativne naloge računalniškega vida. Temeljni cilj je razviti nove (fleksibilne in robustne) mehanizme za editiranje slik (brez eksplicitnega 3D modeliranja), prilagojene potrebam lepotne in modne industrije, sposobne spremeniti določene dele vhodnih slik v skladu z vnaprej definiranim ciljnim izgledom (npr. določen makeup, izgled modela, ki nosi modni izdelek, oblačilo ali dodatek). Glavni oprijemljiv rezultat projekta bo nova in robustna tehnologija za virtualno pomerjanje, ki bo temeljila na izvirnih pristopih editiranja obraza in telesa. Razvita tehnologija bo zmožna editirati slike na fotorealističen način, hkrati pa bo ohranila celostni vizualni izgled oseb na slikah.

Bibliografske reference:

PLESH, Richard, PEER, Peter, ŠTRUC, Vitomir. GlassesGAN: Eyewear Personalization using Synthetic Appearance Discovery and Targeted Subspace Modeling. V: CVPR 2023: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023. <https://tinyurl.com/ULCVPR23>.

FELE, Benjamin, LAMPE, Ajda, PEER, Peter, ŠTRUC, Vitomir. C-VTON : context-driven image-based virtual try-on network. V: WACV 2022 : proceedings : 2022 IEEE Winter Conference on Applications of Computer Vision : 4-8 January 2022 : Waikoloa, Hawaii. Los Alamitos; Washington; Tokyo: IEEE Computer society, cop. 2022. Str. 2203-2212, ilustr. ISBN 978-1-6654-0915-5. <https://ieeexplore.ieee.org/document/9706864>, DOI: 10.1109/WACV51458.2022.00226 <https://dx.doi.org/10.1109/WACV51458.2022.00226>. [COBISS.SI-ID 97882883 <https://plus.cobiss.net/cobiss/si/sl/bib/97882883>]

JUG, Julijan, LAMPE, Ajda, ŠTRUC, Vitomir, PEER, Peter. Body segmentation using multi-task learning. V: ICAIIC 2022 : the 4th International Conference on Artificial Intelligence in Information and Communication : February 21 (Mon.) - 24 (Thur.), 2022, Shilla Stay Jeju, Jeju lsland, Korea : proceedings. [S. l.]: IEEE, cop. 2022. Str. 60-68, ilustr. ISBN 978-1-6654-5818-4. <https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9722662&tag=1>, DOI: 10.1109/ICAIIC54071.2022.9722662 <https://dx.doi.org/10.1109/ICAIIC54071.2022.9722662>. [COBISS.SI-ID 99638275 <https://plus.cobiss.net/cobiss/si/sl/bib/99638275>]

Sodelavci na projektu