Skip to main content

Vision-R1: Pastiprinātais Mācīšanās Pārveidojums Lieliem Vizualās Valodas Modeļiem

Jauna pieeja lielo vizuāli-valodu modeļu apmācībai

Lieli vizuāli-valodu modeļi (LVLM) pēdējos gados ir sasnieguši nozīmīgus panākumus, taču vēl joprojām pastāv vairākas būtiskas ierobežojumi. Viens no galvenajiem izaicinājumiem ir šo modeļu efektīva saskaņošana ar cilvēku gaidas, it īpaši uzdevumos, kuros nepieciešama detalizēta un precīza vizuālā informācija. Tradicionāli LVLM tiek apmācīti divos posmos: iepriekšējā apmācībā un pēc tam uzraudzītā precizēšanā. Tomēr vien uzraudzītā precizēšana nespēj pilnībā novērst problēmas, piemēram, liela apjoma cilvēku anotētu datu kopu trūkumu un augstās izmaksas. Turklāt parastās pastiprinātās mācīšanās metodes prasa dārgas atlīdzības modeļus, kas var nepilnīgi atspoguļot cilvēku atsauksmju smalkās nianses un subjektīvo dabu.

Ķīnas pētnieku komanda ir izstrādājusi Vision-R1: jaunu vizuāli vadītu R1 līdzīgu pastiprinātās mācīšanās algoritmu LVLM, kas atlīdzina modeļus ar noteiktu vizuālo atsauksmi. Vision-R1 izmanto rūpīgi atlasītus instrukciju datus, tādējādi novēršot atkarību no specializētiem atlīdzības modeļiem un manuāli izveidotām datu kopām. Šīs metodes pamatā ir kritēriju vadīta atlīdzības funkcija, kas nodrošina visaptverošu modeļu rezultātu novērtējumu, balstoties uz konkrētiem vizuālajiem uzdevuma kritērijiem. Turklāt tiek izmantota progresīva noteikumu precizēšanas stratēģija, kas dinamiski pielāgo atlīdzības kritērijus apmācības procesa laikā. Šī pieeja nodrošina nepārtrauktu veiktspējas uzlabošanos, efektīvi mazinot atlīdzības manipulācijas problēmas un veicinot precīzāku objektu lokalizāciju.

Vision-R1 algoritms ietver vairākas būtiskas tehniskas inovācijas. Pirmkārt, kritērijos balstītā atlīdzības funkcija ietver dubultā formāta atlīdzības, atgādinājuma atlīdzības un precizitātes atlīdzības. Dubultā formāta atlīdzības nodrošina, ka izvades stingri ievēro veidnes un satura ierobežojumus, kas ir būtiski uzticamiem objektu noteikšanas uzdevumiem. Atgādinājuma atlīdzība uzsver modeļa spēju identificēt visas atbilstošās instances, kas ir kritiski, lai izvairītos no izlaidumiem prognozēs. Precizitātes atlīdzība veicina augstas kvalitātes robežu kāršu prognozes, aprēķinot vidējo Intersection over Union (IoU) derīgajām prognozēm. Turklāt progresīvā noteikumu precizēšanas stratēģija ir iedvesmota no mācību programmu principiem, pakāpeniski palielinot apmācības grūtības, izmantojot pakāpju progresiju un diferenciācijas politikas, tādējādi veicinot stabilu un vispārinātu mācīšanos.

Eksperimenti, kuros izmantoti divi modernākie LVLM – Griffon-G-7B un Qwen2.5-VL-7B – demonstrē Vision-R1 robustās iespējas. Rezultāti vietējās datu kopās, piemēram, MSCOCO un ODINW-13, rāda nozīmīgus veiktspējas uzlabojumus. Konkrēti, Vision-R1 uzlabo Griffon-G-7B mAP rādītājus vidēji par 2,5% dažādos uzdevumos. Vēl iespaidīgāk, Vision-R1 būtiski uzlabo Qwen2.5-VL-7B veiktspēju, parādot 8,9% uzlabojumu COCO objektu noteikšanas uzdevumos un sasniedzot augstākus rādītājus salīdzinājumā ar tā lielāko, 72B versiju. Sarežģītos ārpus domēna lokalizācijas uzdevumos Vision-R1 konsekventi pārspēj uzraudzīto precizēšanu (SFT), demonstrējot tās spēcīgās vispārināšanas spējas un robustumu sarežģītos scenārijos.

Noslēgumā Vision-R1 ievieš inovatīvu pastiprinātās mācīšanās pieeju, kas speciāli izstrādāta LVLM un efektīvi risina esošās saskaņošanas problēmas, neprasot dārgas anotētas datu kopas vai sarežģītus atlīdzības modelēšanas procesus. Tās kritēriju vadītā atlīdzības struktūra un progresīvā noteikumu precizēšanas stratēģija ne tikai uzlabo objektu lokalizācijas uzdevumu precizitāti un visaptverību, bet arī būtiski uzlabo vispārināšanu nepazīstamos scenārijos. Vision-R1 veiksmīgā integrācija ar mūsdienu LVLM arhitektūrām uzsver tās potenciālu kā pamatmetodi, kas ievērojami virza uz priekšu vizuāli-valodu izpratnes un praktiskās ieviešanas jomu reālās pasaules lietojumos.

Apskatiet pētījumu un GitHub lapu. Visu atzinību par šo pētījumu saņem tā autori. Sekojiet mums arī X un pievienojieties mūsu 85k+ lielajai mašīnmācīšanās kopienai.

https://www.marktechpost.com/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *