• OC-0002 - Od občanske znanosti do digitalne slovarske baz
Naročnik: ( OC-0002 )
Tip projekta: Raziskovalni projekti ARRS
Trajanje projekta: 2025 - 2026
  • Opis

Odprto dostopni jezikovni viri, kot so digitalne slovarske baze, igrajo ključno vlogo pri obdelavi naravnega jezika in razvoju jezikovnih tehnologij. Digitalne slovarske baze se dandanes uporabljajo tudi za izboljševanje velikih jezikovnih modelov z visokokakovostnimi jezikovnimi podatki, kar odpira nove možnosti za pripravo naprednih orodij in rešitev na področju generativne umetne inteligencecilj, ki ga zasleduje tudi projekt LLM4DH Veliki jezikovni modeli za digitalno humanistiko (ARIS GC-0002). Slovenščina, ki jo govori le približno 2 milijona ljudi, zahteva proaktiven in inovativen pristop k razvoju jezikovnih virov. Zato smo v prostor uvedli koncept »odzivnega slovarja«, ki pospešuje pripravo odprto dostopnih slovarskih podatkov s kombiniranjem tradicionalne leksikografije, računalniško podprtih metod in sodelovanja širše jezikovne skupnosti. V odzivnem Slovarju sopomenk sodobne slovenščine, prvič objavljenem leta 2018, so občani vabljeni, da prispevajo svoje predloge sopomenk in protipomenk, s čimer izboljšujejo kakovost in obseg slovarja (https://viri.cjvt.si/sopomenke/slv/). Prispevki občanov so se že izkazali za izjemno dragocene; več kot 1.300 sodelujočih je prispevalo več kot 75.000 predlogov. Ti so jezikovno raznoliki na način, ki ga tradicionalne metode težko dosežejo, saj vključujejo narečne izraze, sleng in novonastalo terminologijo. Z neposrednim vključevanjem javnosti postane slovar dinamičen in demokratičen vir, ki odraža rabo jezika v realnem svetu, hkrati pa omogoča govorcem in govorkam, da aktivno prispevajo k ohranjanju in dokumentiranju svojega jezika. Tako se gradi most med strokovno leksikografijo in znanjem širše skupnosti. Trenutno so sopomenke in protipomenke, ki so jih prispevali občani, prikazane v vmesniku Slovarja sopomenk sodobne slovenščine, vendar še niso vključene v odprto dostopne slovarske baze. Predlagani projekt si prizadeva, da bi prispevke občanov leksikografsko validirali in integrirali v Digitalno slovarsko bazo za slovenščino, s čimer se bo pomembno povečala njena vrednost za projekt LLM4DH. V okviru predlaganega projekta bomo tudi posodobili koncept odzivnega slovarja in vmesnik Slovarja sopomenk, da bo laže deliti projektna spoznanja tako z raziskovalno skupnostjo kot s sodelujočimi občani. Novo uporabnost zbranih podatkov bomo predstavili sodelujočim, s čimer jih bomo dodatno spodbudili in motivirali za sodelovanje. Validirani podatkivsaj 45.000 sopomenk in protipomenk, zbranih s pomočjo občanovbodo objavljeni na repozitoriju CLARIN.SI, kar bo zagotovilo njihov odprt in dolgoročen dostop za nadaljnjo uporabo v raziskavah in razvoju. Projekt nadgrajuje že uspešno aktivnost občanske znanosti in jo pripelje do uspešnega zaključka, hkrati pa ustvarja konkreten in celovit primer dobre prakse, ki poudarja vrednost in vpliv takšnih sodelovalnih prizadevanj v sodobni družbi.