Skip to main content

Labāka Ģeneratīvā AI Video, Mainot Kadrus Apmācības Laikā

Jauna pieeja videogrāfijas ģenerēšanai ar mākslīgo intelektu

Pētnieku jaunākā publikācija risina problēmu, ar kuru saskārušies visi, kas ir izmēģinājuši tādus videogrāfijas ģenerēšanas rīkus kā Hunyuan Video vai Wan 2.1. Runājam par tā sauktajām laika aberācijām, kad sistēma pārāk ātri paātrina, izlaiž vai nekorekti apstrādā būtiskus momentus ģenerētajā video:

Noklikšķiniet, lai atskaņotu. Daži no biežāk sastopamajiem laika nepilnību piemēriem, kas uzlaboti ar jauno FluxFlow metodi. Avots: https://haroldchen19.github.io/FluxFlow/

Piemēros redzams, kā dažādu modeļu radītie video satur nepilnības – bērni ar bumbu pārvietojas pārāk ātri, kaķis “iestrēgst” vienā pozā, basketbolists kustas nepārtraukti, bet tauriņa spārni nepakustas vispār.

Kā strādā FluxFlow metode

Pētnieku izstrādātā FluxFlow metode balstās uz vienkāršu, bet efektīvu pieeju – apmācības laikā video kadri tiek apzināti sajaukti, lai modelis iemācītos labāk apstrādāt kustības:

FluxFlow metode ietver video kadru un to bloku pārkārtošanu apmācības procesā

Metodes pamatā ir kadru un kadru bloku pārkārtošana, kas veicina labāku kustību apguvi.

Pētnieki skaidro: “Pašreizējie modeļi bieži vien paļaujas uz pārāk vienkāršotiem laika modeļiem apmācības datos. FluxFlow metode ļauj modelim iemācīties atjaunot pareizu kustību secību pat no sajauktiem kadriem.”

Testu rezultāti

Metode tika pārbaudīta uz trim dažādiem videogrāfijas ģenerēšanas modeļiem:

  • VideoCrafter2 (U-Net arhitektūra)
  • CogVideoX-2B (DiT arhitektūra)
  • NOVA-0.6B (AR arhitektūra)

Rezultāti uzrādīja ievērojamus uzlabojumus gan laika konsekvencē, gan vizuālajā kvalitātē:

FluxFlow testu rezultātu salīdzinājums

Kvantitatīvie testu rezultāti rāda uzlabojumus visos izmēģinātajos modeļos.

Secinājumi

Šis pētījums kopā ar citiem nesen publicētajiem darbiem par video aprakstīšanu liecina, ka pašreizējās ģeneratīvās video sistēmas nepilnības nav lietotāju kļūdu vai modeļu ierobežojumu rezultāts, bet gan pētnieciskā uzmanība, kas līdz šim koncentrējās uz fundamentālākām problēmām.

FluxFlow metode piedāvā salīdzinoši vienkāršu, bet efektīvu risinājumu, kas var uzlabot nākamās paaudzes videogrāfijas ģenerēšanas rīkus, padarot tos piemērotākus reāliem lietojumiem.

Publiskots 2025. gada 21. martā

https://www.unite.ai/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *