J2-4458 Paradigma stiskanja podatkov z odstranjevanjem obnovljivih informacij

Akronim: COMPROMISE

Obdobje: 01/11/2022 – 31/10/2025

Financiranje:

  • Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije (ARIS)
    J2-4458 Data compression paradigm based on omitting self-evident information

  • Grantová agentura České republiky (GA ČR)
    Komprese dat založená na vynechání samozřejmé informace - COMPROMISE

Partnerja:

Fakulteta za elektrotehniko, računalništvo in informatiko, Laboratorij za geoprostorsko modeliranje, multimedijo in umetno inteligenco (UM FERI)

Katedra informatiky a výpočetní techniky (UWB)

Koordinator in kontakt:

Stiskanje podatkov je ena od tradicionalnih disciplin računalništva, ki pa v zadnjih desetletjih ni bistveno napredovala. Prav tako ni uspela slediti novim znanstvenim trendom, kjer nove naprave zbirajo vedno večje količine zelo heterogenih podatkov. Ti podatki se stiskajo bodisi s splošnonamenskimi ali z domensko odvisnimi metodami. Med prve spadajo dobro znane brezizgubne rešitve izpred 30 let (npr. RAR ali ZIP). Splošnost dosežejo z obdelavo podatkovnega toka na ravni zlogov, pri čemer ne upoštevajo morebitnih relacij na višjih podatkovnih ravneh. Domensko odvisne metode so izgubne, skoraj brezizgubne ali brezizgubne. Izgubne delujejo tako, da podatke pretvorijo v frekvenčni prostor, tam izvedejo kvantizacijo in preostale vrednosti kodirajo na način brez izgub, pri čemer je del brezizgubni del običajno prav tako domensko odvisen. Skoraj brezizgubne in brezizgubne metode običajno temeljijo na napovedovanju. Vendar se napovedi izvajajo na podlagi ozkega prostorskega in/ali časovnega konteksta, kar zmanjšuje učinkovitost. Večina metod je simetričnih, kar pomeni, da se dekodiranje izvaja po istem cevovodu kot kodiranje, le v obratnem vrstnem redu. Pomanjkljivost je, da je časovna zahtevnost dekodiranja enaka časovni zahtevnosti kodiranja. Poleg tega vsaka vrsta podatkov zahteva posebno rešitev, ki je ni mogoče prenesti na druge tipe podatkov.

Krovni cilj predlaganega projekta COMPROMISE je razvoj nove paradigme stiskanja podatkov, temelječe na raziskavah naprednejših metod napovedovanja z vključitvijo značilnic in metod restavriranja. Poleg tega bo razvita metodologija stiskanja podatkov v veliki meri domensko neodvisna in asimetrična. Paradigmo COMPROMISE uresničujemo z doslednim sledenjem naslednjim posebnim ciljem projekta:

  • SO1: Razviti univerzalno metodologijo stiskanja podatkov z enotno taksonomijo značilnic iz različnih domen in s skupnim ogrodjem za brezizgubno, skoraj brezizgubno in izgubno stiskanje.

  • SO2: Nadgraditi napovedovanje izvornih podatkov z integracijo tehnik izbiranja značilnic in restavriranja.

  • SO3: Doseči boljšo stopnjo stiskanja v brezizgubnem in skoraj brezizgubnem načinu v primerjavi z obstoječimi pristopi.

  • SO4: Izboljšati dostopnost in ponovno uporabljivost značilnic in na le-teh temelječih restavriranih podatkih.

  • SO5: Zagotoviti verifikacijsko okolje za testiranje hipoteze v štirih pilotnih domenah: rastrskih slikah, digitalnem avdiu, biomedicinskih signalih in redkih vokselskih mrežah.

  • SO6: Diseminirati rezultate projekta.

V projektu COMPROMISE preverjamo naslednjo hipotezo, ki bo predvidoma pokazala univerzalnost, domensko neodvisnost in učinkovitost predlagane metodologije:

Hipoteza: Univerzalna metodologija brezizgubnega ali skoraj brezizgubnega stiskanja podatkov, ki bo temeljila na enotni taksonomiji značilnic in metodah restavriranja, bo uspešnejša v primerjavi z uveljavljenimi postopki stiskanja za rastrske slike, digitalni avdio, biomedicinske signale in redke vokselske mreže.

Pilotne domene iz SO5 se razlikujejo tako po številu dimenzij kot po dinamiki, saj naslavljajo dva človeška sistema zaznavanja – vid in sluh. Ekipa UM FERI se  večinoma ukvarja s slikami in avdiom, medtem ko je stiskanje biomedicinskih signalov v domeni UWB. Zadnje pilotno področje, redke vokselske mreže, pa  zahteva tesno sodelovanje in enakomerne napore obeh raziskovalnih skupin. Metodologijo implementiramo v enovitem ogrodju, od katerega pričakujemo boljša razmerja stiskanja v brezizgubnem in skoraj brezizgubnem načinu, kot jih dosegajo obstoječe domensko odvisne metode, s čimer bomo postavili temelje za novo generacijo postopkov stiskanja podatkov.

Slika 1: Koncept programske platforme COMPROMISE.

Paradigmo COMPROMISE bomo verificirali z razvojem programske platforme s slike 1. Kodirnik sprejme izvorni tok podatkov I in najprej poišče njegove značilnice Z (proces 1.1). Sledi računsko in tudi raziskovalno najintenzivnejši modul (1.2), ki izbere zaznane značilnice tako, da optimizira shrambo izhodnih podatkov in zmožnost restavriranja, upoštevaje uporabniško podan način stiskanja in morebiti dovoljene tolerance (podatkovni tok U). V iterativni optimizacijski postopek je vključena tudi metoda restavriranja (identična tisti v dekodirniku). Izhoda iz modula 1.2 sta množica izbranih značilnic Z_r in podatkovni tok R, ki opisuje razlike med vhodnim tokom I in zadnjo generacijo restavriranih podatkov znotraj modula. Popravke in izbrane značilnice nato zakodira brezizgubna metoda stiskanja (lahko tudi dve različni metodi – procesa 1.3 in 1.4), izhodna bitna niza B_r in B_z pa se zapišeta v datoteko. Dekodiranje stisnjenih podatkov v spodnjem delu slike je veliko enostavnejše. Po razširjanju stisnjenih značilnic (proces 2.2) in popravkov (proces 2.1) se izhodna toka Z_r in R uporabita za restavriranje podatkov I (proces 2.3).

Slika 2: Testni primer v domeni digitalnega avdia (a) z izbiro bogate množice značilnic (b) in posledično z dobro stisljivimi residuali (c).

Slika 3: Testni primer v domeni digitalnega avdia (a) z izbiro skromnejše množice značilnic (b) in posledično s slabše stisljivimi residuali (c).

Stiskanje podatkov po metodologiji COMPROMISE predstavlja kompromis med bogato množico značilnic (Slika 2b), ki lahko zasede precej prostora, a rezultira v pretežno majhnih in dobro stisljivih residualih (Slika 2c), ter med skromnejšo izbiro značilnic (Slika 3b), ki zasede malo prostora, zato pa so residuali večji in slabše stisljivi (Slika 3c). Pomnilniško potratnejši B_z (slika 1) torej praviloma pomeni prihranek pri B_r in obratno. Doseganje optimalnega kompromisa je ključna naloga izbire značilnic (blok 1.2 na sliki 1).

Projekt financira Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije v okviru »Javnega razpisa za (so)financiranje raziskovalnih projektov za leto 2022«. Projekt J2-4458.

ARRS
eng