Pilnīga kontrole mākslīgā intelekta video ģenerēšanā
Pilnīga kontrole AI video ģenerēšanā
Video pamatmodeļi, piemēram, Hunyuan un Wan 2.1, lai arī spēcīgi, lietotājiem nepiešķir tādu detalizētu kontroli, kādu pieprasa filmu un televīzijas producēšana (īpaši VFX producēšana).
Profesionālās vizuālo efektu studijās šādi atvērtā koda modeļi, kopā ar agrākajiem attēlu (nevis video) modeļiem, piemēram, Stable Diffusion, Kandinsky un Flux, parasti tiek izmantoti kopā ar vairākiem palīginstrumentiem, kas pielāgo to izejas materiālu konkrētām radošām vajadzībām.
Kontrolējošie mehānismi
Difūzijas balstītas attēlu sintēzes pasaulē vissvarīgākais šāds trešās puses sistēma ir ControlNet.
ControlNet ir paņēmiens, lai pievienotu strukturētu kontroli difūzijas balstītiem ģeneratīvajiem modeļiem, ļaujot lietotājiem vadīt attēlu vai video ģenerēšanu ar papildu ievadiem, piemēram, kontūru kartēm, dziļuma kartēm vai pozas informāciju.
Tomēr šāda veida adapteru balstītām sistēmām ir vairāki trūkumi, tostarp zaru konflikti, parametru redundance un suboptimāli rezultāti.
FullDiT – jauna pieeja
No Ķīnas nāk jauna piedāvājuma – FullDiT, kas ievieš sistēmu, kurā ControlNet stila kontroles mehānismi ir tieši iebūvēti video ģenerēšanas modelī apmācības laikā.
FullDiT apvieno tādus daudzuzdevumu nosacījumus kā identitātes pārnešana, dziļuma kartēšana un kameras kustība vienotā video ģenerēšanas modelī. Pētnieki ir izveidojuši prototipa modeli un demonstrācijas video.
Metodoloģija un testēšana
FullDiT arhitektūrā visi nosacījumu ievadi – piemēram, teksts, kameras kustība, identitāte un dziļums – vispirms tiek pārveidoti par vienotu tokenu formātu. Šie tokeni pēc tam tiek apvienoti vienā garā secībā, ko apstrādā, izmantojot pilnu pašuzmanību.
Lai novērtētu FullDiT un nodrošinātu godīgu salīdzinājumu ar esošām metodēm, autori ieviesa FullBench – izstrādātu testu komplektu, kas sastāv no 1400 atsevišķiem testa gadījumiem.
Rezultāti
Rezultāti liecina, ka FullDiT, neskatoties uz vairāku nosacījumu signālu vienlaicīgu apstrādi, sasniedza vadošos rezultātus metrikās, kas saistītas ar tekstu, kameras kustību, identitāti un dziļuma kontroli.
Secinājumi
Lai gan FullDiT ir aizraujošs ieskats pilnīgāka veida video pamatmodelī, rodas jautājums, vai pieprasījums pēc ControlNet stila funkcionalitātes kādreiz attaisnos šādu funkciju ieviešanu plašā mērogā.
Galvenais izaicinājums ir tas, ka šādu sistēmu izmantošana parasti prasa diezgan sarežģītu lietotāja saskarņu izpratni. Tāpēc šķiet, ka funkcionāls atvērtā koda šāda veida modelis visticamāk tiks izstrādāts mazāku VFX kompāniju grupām.
https://www.unite.ai/