Skip to main content

Dinamiska kopu bāzēta rāmja TokenSet ieviešana semantiski apzinātai vizuālai attēlošanai

Dinamiska kopa balstīta vizuālo datu attēlošana

Vizuālās ģenerēšanas sistēmas tradicionāli izmanto divpakāpju pieeju: vispirms saspiež vizuālos signālus latentos attēlojumos un pēc tam modelē zemas dimensijas sadalījumus. Taču parastās tokenizācijas metodes izmanto vienmērīgu telpisko saspiešanas pakāpi, neatkarīgi no dažādu attēla reģionu semantiskās sarežģītības. Piemēram, pludmales fotogrāfijā vienkāršajam debesu reģionam tiek piešķirta tāda pati attēlošanas jauda kā semantiski bagātajam priekšplānam. Pooling metodes iegūst zemas dimensijas pazīmes, bet trūkst tiešas uzraudzības atsevišķiem elementiem, bieži vien radot neoptimālus rezultātus.

Attēlu tokenizācija ir būtiski attīstījusies, lai risinātu saspiešanas izaicinājumus. Variacionālie autoenkoderi (VAE) bija pirmie, kas attēlus kartēja zemas dimensijas nepārtrauktos latentos sadalījumos. VQVAE un VQGAN uzlaboja šo pieeju, projicējot attēlus diskrētās tokenu sekvencēs, savukārt VQVAE-2, RQVAE un MoVQ ieviesa hierarhisku latento attēlojumu, izmantojot atlikuma kvantizāciju. FSQ, SimVQ un VQGAN-LC risināja reprezentācijas sabrukšanu, palielinot kodu grāmatu izmērus.

Ķīnas Zinātnes un tehnoloģiju universitātes un Tencent Hunyuan pētnieki ir ierosinājuši jaunu paradigmu attēlu ģenerēšanai, izmantojot kopu balstītu tokenizāciju un sadalījumu modelēšanu. Viņu TokenSet pieeja dinamiski piešķir kodēšanas jaudu, balstoties uz reģionu semantisko sarežģītību. Šis nesakārtotais tokenu kopas attēlojums uzlabo globālās konteksta agregāciju un paaugstina noturību pret lokāliem traucējumiem. Turklāt tika ieviests Fixed-Sum Discrete Diffusion (FSDD), kas vienlaikus apstrādā diskrētās vērtības, fiksētu secības garumu un summēšanas nemainīgumu.

Eksperimenti veikti ar ImageNet datu kopu, izmantojot 256 × 256 izšķirtspējas attēlus. Rezultāti parādīja TokenSet pieejas priekšrocības. Permutāciju nemainība tika apstiprināta gan vizuāli, gan kvantitatīvi. Visi rekonstruētie attēli vizuāli izskatījās identiski neatkarīgi no tokenu secības, ar konsekventiem kvantitatīviem rezultātiem dažādām permutācijām.

Secinājumos minēts, ka TokenSet ietvaros rada paradigmas maiņu vizuālajā attēlojumā, pārejot no serializētiem tokeniem uz kopu balstītu pieeju. Tika izveidota bijektīva kartēšana starp nesakārtotām tokenu kopām un strukturētām veselu skaitļu sekvencēm, izmantojot FSDD. Šī pieeja atver jaunas iespējas attēlu attēlošanai un ģenerēšanai.


Aplūkojiet pētījumu un GitHub lapu. Visu kredītu par šo pētījumu saņem tā autori. Sekojiet mums arī Twitter un pievienojieties mūsu 85k+ ML kopienai.

https://www.marktechpost.com/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *