Labāka Ģeneratīvā AI Video, Mainot Kadrus Apmācības Laikā
Jauna pieeja videogrāfijas ģenerēšanai ar mākslīgo intelektu
Pētnieku jaunākā publikācija risina problēmu, ar kuru saskārušies visi, kas ir izmēģinājuši tādus videogrāfijas ģenerēšanas rīkus kā Hunyuan Video vai Wan 2.1. Runājam par tā sauktajām laika aberācijām, kad sistēma pārāk ātri paātrina, izlaiž vai nekorekti apstrādā būtiskus momentus ģenerētajā video:
Noklikšķiniet, lai atskaņotu. Daži no biežāk sastopamajiem laika nepilnību piemēriem, kas uzlaboti ar jauno FluxFlow metodi. Avots: https://haroldchen19.github.io/FluxFlow/
Piemēros redzams, kā dažādu modeļu radītie video satur nepilnības – bērni ar bumbu pārvietojas pārāk ātri, kaķis “iestrēgst” vienā pozā, basketbolists kustas nepārtraukti, bet tauriņa spārni nepakustas vispār.
Kā strādā FluxFlow metode
Pētnieku izstrādātā FluxFlow metode balstās uz vienkāršu, bet efektīvu pieeju – apmācības laikā video kadri tiek apzināti sajaukti, lai modelis iemācītos labāk apstrādāt kustības:

Metodes pamatā ir kadru un kadru bloku pārkārtošana, kas veicina labāku kustību apguvi.
Pētnieki skaidro: “Pašreizējie modeļi bieži vien paļaujas uz pārāk vienkāršotiem laika modeļiem apmācības datos. FluxFlow metode ļauj modelim iemācīties atjaunot pareizu kustību secību pat no sajauktiem kadriem.”
Testu rezultāti
Metode tika pārbaudīta uz trim dažādiem videogrāfijas ģenerēšanas modeļiem:
- VideoCrafter2 (U-Net arhitektūra)
- CogVideoX-2B (DiT arhitektūra)
- NOVA-0.6B (AR arhitektūra)
Rezultāti uzrādīja ievērojamus uzlabojumus gan laika konsekvencē, gan vizuālajā kvalitātē:

Kvantitatīvie testu rezultāti rāda uzlabojumus visos izmēģinātajos modeļos.
Secinājumi
Šis pētījums kopā ar citiem nesen publicētajiem darbiem par video aprakstīšanu liecina, ka pašreizējās ģeneratīvās video sistēmas nepilnības nav lietotāju kļūdu vai modeļu ierobežojumu rezultāts, bet gan pētnieciskā uzmanība, kas līdz šim koncentrējās uz fundamentālākām problēmām.
FluxFlow metode piedāvā salīdzinoši vienkāršu, bet efektīvu risinājumu, kas var uzlabot nākamās paaudzes videogrāfijas ģenerēšanas rīkus, padarot tos piemērotākus reāliem lietojumiem.
Publiskots 2025. gada 21. martā
https://www.unite.ai/