Pārsteidzošs cilvēka vadītas AI video attīstības lēciens
Pētnieki izstrādā jaunu AI videogrāmatas sistēmu
Piezīme: Šī projekta mājaslapā ir 33 automātiski atskaņojami augstas izšķirtspējas video faili, kuru kopējais apjoms pārsniedz pus gigabaiti. Tā kā šīs lapas ielāde var izraisīt sistēmas nestabilitāti, tiešā saite netiks norādīta. Interesenti var atrast URL pētījuma anotācijā vai PDF failā.
Viens no galvenajiem mērķiem mūsdienu videogrāmatas sintēzes pētījumos ir pilnībā AI ģenerētu video veidošana no vienas attēla. Nesen Bytedance Intelligent Creation pētnieki publicēja jaunu pētījumu, kas iespējams ir visaptverošākā šāda veida sistēma līdz šim. Tā spēj radīt pilna un daļēja ķermeņa animācijas, apvienojot izteiksmīgu sejas detalizētību ar precīzu liela mēroga kustību, vienlaikus uzlabojot identitātes noturību – jomā, kurā pat vadošās komerciālās sistēmas bieži vien neizdodas.
AUDIO SATURS. Noklikšķiniet, lai atskaņotu. Demonstrācija no jaunās sistēmas, ieskaitot lūpu sinhronizāciju, kas parasti prasa atsevišķas palīgsistēmas.
Trīskāršā vadības sistēma
Jaunā sistēma, nosaukta par DreamActor, izmanto trīskāršu hibrīdo vadības sistēmu, kas veltīta uzmanību sejas izteiksmēm, galvas rotācijai un skeleta projektēšanai. Tas ļauj radīt AI vadītus veidojumus, kuros ne sejas, ne ķermeņa aspekti netiek upurēti – iespējams, pirmā šāda veida iespēja līdzīgās sistēmās.
Noklikšķiniet, lai atskaņotu. Krāsains lodīnes elements vizualizē avatara galvas rotācijas asi, kamēr izteiksmes tiek kontrolētas ar atsevišķu moduli.
Inovatīvas funkcijas
Viena no interesantākajām sistēmas iespējām ir tās spēja ģenerēt lūpu kustības tieši no audio signāla – šī funkcija darbojas ārkārtīgi labi pat bez aktora video pamata.
AUDIO SATURS. Noklikšķiniet, lai atskaņotu. Lūpu sinhronizācija, kas veidota tikai no audio, bez aktora atsauces. Vienīgais ievades elements ir statiskais fotoattēls augšējā labajā stūrī.
Tehniskā ieviešana
Sistēma izmanto trīs posmu apmācības procesu, lai pakāpeniski ieviestu sarežģītību un uzlabotu stabilitāti. Pirmajā posmā tika izmantoti tikai 3D ķermeņa skeleti un galvas sfēras. Otrajā posmā tika pievienotas implicītas sejas reprezentācijas. Trešajā posmā visi parametri tika atbrīvoti kopīgai optimizācijai.

Jaunās sistēmas shēma: DreamActor kodē pozu, sejas kustības un izskatu atsevišķos latentos mainīgos, apvienojot tos ar 3D VAE radītiem video latentiem.
Ierobežota pieejamība
Diemžēl šī sistēma nav paredzēta publiskai izlaišanai. Pētījuma autori norāda, ka cilvēku attēlu animācijai ir potenciāli sociāli riski, piemēram, viltotu video izveidošana. Lai mazinātu šos riskus, tiks ievēroti stingri ētikas noteikumi un atbildīgas lietošanas vadlīnijas.
Bytedance jau iepriekš ir komercializējis līdzīgus produktus, tāpēc, visticamāk, DreamActor kļūs par vēl vienu maksas pakalpojumu, nevis brīvi pieejamu rīku.
Pirmo reizi publicēts 2025. gada 4. aprīlī
https://www.unite.ai/a-notable-advance-in-human-driven-ai-video/