Kā Mācīt AI Sniegt Labākas Video Atsauksmes
AI spēja analizēt video saturu
Lielie vizuāli-valodas modeļi (LVLM) var būt noderīgi palīgi, analizējot sarežģītus datorredzes pētījumus, taču viņiem joprojām ir būtisks ierobežojums – spēja novērtēt video piemēru kvalitāti un subjektīvos kritērijus.
Zinātniskajos rakstos video demonstrācijām bieži ir izšķiroša nozīme, jo tās palīdz parādīt pētījuma rezultātus praksē. Tomēr pašreizējie lielie valodas modeļi (LLM) un LVLM nevar tieši analizēt video saturu – tikai teksta transkriptus vai komentārus.

GPT-4o, Google Gemini un Perplexity reakcija, kad tiek lūgts analizēt video saturu bez teksta palīdzības.
Vēl nopietnāka problēma ir tā, ka daži modeļi mēģina “izlikties”, ka spēj analizēt video, kaut patiesībā to nedara:

ChatGPT-4o mēģina izlikties, ka spēj novērtēt video, bet beigās atzīst, ka tas nav iespējams.
Kā mākslīgais intelekts spēj novērtēt vizuālo saturu?
Lai gan mūsdienu AI modeļi var analizēt atsevišķus attēlus (piemēram, video kadrus), tiem trūkst spējas novērtēt temporālās kvalitātes – kustību plūsmu, dabisku animāciju un citus dinamiskus aspektus.
Turklāt, pat analizējot atsevišķus kadrus, AI vērtējums balstās tikai uz iepriekš apgūtu tekstuālo zināšanu bāzi, nevis patiesu vizuālo sapratni:

FakeVLM projekts, kas specializējas uz deepfake noteikšanu. Avots: https://arxiv.org/pdf/2503.14905
Jauni metriki videokritikas uzlabošanai
Pētnieki no ASV ir izstrādājuši jaunu metodi – Conditional Fréchet Distance (cFreD), kas paredzēta tekstam un attēlam saskaņotības novērtēšanai. Šī metode labāk atbilst cilvēku vēlmēm, salīdzinot ar tradicionālajiem metrikiem.

cFreD rezultāti, kas rāda augstāku sakritību ar cilvēku vērtējumiem. Avots: https://arxiv.org/pdf/2503.21721
Pētījumā tika salīdzināti vairāki populāri metrika, un cFreD parādīja vislabākos rezultātus:

Salīdzinājums starp dažādiem metrikiem.
Nākotnes izaicinājumi
Lai gan cilvēku iesaistīšana AI vērtēšanas procesos joprojām ir optimālākais risinājums, tas ir dārgs un laikietilpīgs process. Tāpēc automātizēti metriki, piemēram, cFreD, paliks būtiski rīki nākotnē.
Tomēr jāatceras, ka jebkura metrika, kas balstīta uz cilvēku vērtējumiem, var kļūt novecojusi, jo mūsu uztvere par “reālistisku” saturu pastāvīgi mainās.
Pirmo reizi publicēts 2025. gada 1. aprīlī
https://www.unite.ai/