VideoMind: Loma Balstīts Aģents Laika Saistītai Video Satura Izpratnei
Pētījums par videomateriālu izpratni ar mākslīgo intelektu
Lielo valodu modeļi (LLM) ir uzrādījuši iespaidīgas spējas loģiskās domāšanas uzdevumos, piemēram, ķēdes domāšanas (CoT) pieejā, uzlabojot precizitāti un interpretējamību sarežģītu problēmu risināšanā. Lai gan pētnieki paplašina šīs iespējas uz daudzveidīgām jomām, videomateriāli rada unikālus izaicinājumus savas temporālās dimensijas dēļ. Atšķirībā no statiskām attēliem, videomateriāliem nepieciešama dinamisko mijiedarbību izpratne laikā. Pašreizējās vizuālās CoT metodes labi strādā ar statiskiem datiem, bet cieš ar video saturu, jo nespēj precīzi lokalizēt vai atkārtoti apskatīt konkrētus momentus secībās. Cilvēki pārvar šos izaicinājumus, sadalot sarežģītas problēmas, identificējot un atkārtoti pārskatot galvenos momentus un sintēzējot novērojumus sakarīgās atbildēs. Šī pieeja uzsver nepieciešamību pēc AI sistēmām, kas spēj pārvaldīt vairākas spējas loģiskai domāšanai.
Nesenie sasniegumi video izpratnē ir uzlabojuši tādus uzdevumus kā aprakstīšana un jautājumu atbildēšana, taču modeļiem bieži trūkst vizuāli pamatotas atbilstības un interpretējamības, īpaši garākām video ierakstiem. Video temporālā lokalizācija risina šo problēmu, pieprasot precīzu momentu noteikšanu. Lieli multimodālie modeļi, kas apmācīti ar uzraudzītu instrukciju pielāgošanu, cīnās ar sarežģītiem loģiskās domāšanas uzdevumiem. Ir parādījušās divas galvenās pieejas šo ierobežojumu pārvarēšanai: aģentu bāzētas saskarnes un tīri teksta bāzētas loģiskās domāšanas paradigmas, kuras ilustrē CoT procesi. Turklāt, secinājumu meklēšanas tehnikas ir vērtīgas tādās jomās kā robotika, spēles un navigācija, ļaujot modeļiem iteratīvi uzlabot izvadi, nemainot pamata parametrus.
Pētnieki no Honkongas Politehniskās universitātes un Show Lab, Nacionālās Singapūras universitātes, ir izstrādājuši VideoMind – video un valodas aģentu, kas paredzēts temporāli pamatotai video izpratnei. VideoMind ievieš divas galvenās inovācijas, lai risinātu video loģiskās domāšanas izaicinājumus. Pirmkārt, tas identificē būtiskās spējas video temporālai loģiskai domāšanai un ievieš lomu bāzētu aģentu darbplūsmu ar specializētām komponentēm: plānotāju, lokalizētāju, pārbaudītāju un atbildētāju. Otrkārt, tas piedāvā Chain-of-LoRA stratēģiju, kas ļauj veikt nevainojamu lomu maiņu, izmantojot vieglus LoRA pielāgotājus, izvairoties no vairāku modeļu slodzes, vienlaikus saglabājot efektivitāti un elastību. Eksperimenti 14 publiski pieejamos testos uzrāda vadošos rezultātus dažādos video izpratnes uzdevumos.
VideoMind balstās uz Qwen2-VL, apvienojot LLM pamatu ar vizuālo kodētāju, kas spēj apstrādāt dinamiskas izšķirtspējas ievades. Tās galvenā inovācija ir Chain-of-LoRA stratēģija, kas dinamiski aktivizē lomu specifiskus LoRA pielāgotājus secinājumu izdarīšanas laikā. Turklāt tas satur četras specializētās komponentes: (a) Plānotājs, kas koordinē visas pārējās lomas un nosaka, kādu funkciju izsaukt tālāk, balstoties uz vaicājumu, (b) Lokalizētājs, kas atrod atbilstošos momentus, identificējot sākuma un beigu laikus, balstoties uz teksta vaicājumiem, (c) Pārbaudītājs, kas sniedz bināras (“Jā”/”Nē”) atbildes, lai validētu temporālos intervālus, un (d) Atbildētājs, kas ģenerē atbildes, balstoties vai nu uz video segmentiem, ko identificējis Lokalizētājs, vai uz visu video, ja tiešā atbildēšana ir piemērotāka.
Lokalizācijas metrikās VideoMind 2B modelis pārspēj lielāko daļu salīdzināmo modeļu, tostarp InternVL2-78B un Claude-3.5-Sonnet, un tikai GPT-4o rāda labākus rezultātus. Tomēr VideoMind 7B versija pārspēj pat GPT-4o, sasniedzot konkurētspējīgus rezultātus kopumā. NExT-GQA testā 2B modelis sasniedz līdzvērtīgus rezultātus ar vadošajiem 7B modeļiem gan aģentu bāzētās, gan end-to-end pieejās, salīdzinot labvēlīgi ar teksta bagātīgiem risinājumiem kā LLoVi, LangRepo un SeViLA. VideoMind uzrāda izcili spējas zero-shot scenārijos, pārspējot visas LLM bāzētās temporālās lokalizācijas metodes un sasniedzot konkurētspējīgus rezultātus salīdzinājumā ar specializētiem modeļiem. Turklāt, VideoMind izcili veicas vispārīgos video jautājumu atbildēšanas uzdevumos Video-MME (Long), MLVU un LVBench testos, efektīvi lokalizējot atslēgas segmentus pirms jautājumu atbildēšanas.
Šajā pētījumā pētnieki ieviesa VideoMind – nozīmīgu sasniegumu temporāli pamatotā video loģiskajā domāšanā. Tas risina sarežģītus video izpratnes izaicinājumus, izmantojot aģentu darbplūsmu, apvienojot Plānotāju, Lokalizētāju, Pārbaudītāju, Atbildētāju un efektīvu Chain-of-LoRA stratēģiju lomu maiņai. Eksperimenti trīs galvenajās jomās – pamatotā video jautājumu atbildēšanā, video temporālajā lokalizācijā un vispārīgā video jautājumu atbildēšanā – apstiprina VideoMind efektivitāti garāku video ierakstu loģiskajā domāšanā, kur tas sniedz precīzas, ar pierādījumiem pamatotas atbildes. Šis darbs liek pamatus turpmākajiem attīstības virzieniem multimodālo video aģentu un loģiskās domāšanas spēju jomā, atverot jaunus ceļus sarežģītākām video izpratnes sistēmām.
Atsauces: Pētījuma publikācija un projekta mājaslapa. Visu atzinību par šo pētījumu izpildi saņem pētnieku komanda.
https://www.marktechpost.com/