UCLA Pētnieki Izveidojuši OpenVLThinker-7B: Stiprināšanas Mācīšanās Vadīts Modelis Sarežģītas Vizuālās Spriešanas un Soli pa Solim Problēmu Risināšanas Uzlabošanai Daudzveidīgās Sistēmās
Pētījums par vizuālo spriešanas uzlabošanu ar mašīnmācīšanos
Lielie vizuāli-valodas modeļi (LVLM) apvieno lielos valodas modeļus ar attēlu apstrādes iespējām, ļaujot tiem interpretēt attēlus un ģenerēt sakarīgas teksta atbildes. Lai gan tie lieliski spēj atpazīt vizuālus objektus un reaģēt uz uzdevumiem, bieži vien tie cieš neveiksmes, ja tiek prasīta daudzpakāpju loģiska spriešana. Uzdevumi, kā diagrammu izpratne, vizuālu matemātisku jautājumu risināšana vai shēmu interpretēšana, prasa vairāk nekā vienkāršu atpazīšanu – tiem nepieciešama spēja sekot loģiskām darbībām, balstoties uz vizuālām norādēm. Neskatoties uz modeļu arhitektūras uzlabojumiem, pašreizējās sistēmas bieži vien nespēj sniegt precīzas un saprotamas atbildes šādos sarežģītos scenārijos.
Viena no galvenajām pašreizējo vizuāli-valodu modeļu ierobežojumiem ir nespēja veikt sarežģītu spriešanu, kas ietver vairākas loģiskās secināšanas darbības, īpaši, ja attēli jāinterpretē kopā ar teksta vaicājumiem. Šie modeļi bieži nespēj iekšēji pārbaudīt vai labot savu spriešanas procesu, kā rezultātā rodas nepareizas vai virspusējas izvades. Turklāt šo modeļu spriešanas ķēdes parasti nav pārskatāmas vai pārbaudāmas, tādējādi apgrūtinot to secinājumu drošuma nodrošināšanu. Izaicinājums ir šķērslot šo spriešanas plaisu, ko teksta modeļi jau sākuši veiksmīgi risināt ar pastiprinātās mācīšanās metodēm, bet vizuāli-valodas modeļi vēl nav pilnībā pieņēmuši.
Pirms šī pētījuma centieni uzlabot šādu sistēmu spriešanas spējas galvenokārt balstījās uz standarta pielāgošanas vai uzdevumu formulēšanas metodēm. Lai gan šīs metodes noderēja vienkāršos uzdevumos, tās bieži radīja pārāk garas vai atkārtotas izvades ar ierobežotu dziļumu. Vizuāli-valodas modeļi, piemēram, Qwen2.5-VL-7B, uzrādīja dažus solītus uz priekšu savās vizuālo instrukciju izpildes spējās, taču tiem trūka daudzpakāpju spriešanas spēju, kas raksturīgas tikai teksta modeļiem, piemēram, DeepSeek-R1. Pat strukturētu vaicājumu gadījumā šie modeļi cīnījās ar savu izvadu pārdomām vai starpposma spriešanas soļu apstiprināšanu. Tas bija nozīmīgs šaurākās vietas problēma, īpaši lietojumiem, kuros nepieciešama strukturēta lēmumu pieņemšana, piemēram, vizuālu problēmu risināšanā vai izglītības atbalsta rīkos.
Kalifornijas Universitātes Losandželosā (UCLA) pētnieki izstrādāja modeli ar nosaukumu OpenVLThinker-7B. Šis modelis tika izveidots, izmantojot jaunu apmācības metodi, kas apvieno uzraudzītu smalko pielāgošanu (SFT) un pastiprinātās mācīšanās (RL) iteratīvā ciklā. Process sākās ar attēlu parakstu ģenerēšanu, izmantojot Qwen2.5-VL-3B, un šo datu padevi destilētajā DeepSeek-R1 versijā, lai radītu strukturētas spriešanas ķēdes. Šīs izvades veidoja apmācības datus pirmajam SFT ciklam, palīdzot modelim apgūt pamata spriešanas struktūras. Pēc tam tika piemērots pastiprinātās mācīšanās posms, izmantojot Grupu Relatīvo Politikas Optimizāciju (GRPO), lai uzlabotu modeļa spriešanu, balstoties uz atalgojuma atgriezenisko saiti. Šī kombinācija ļāva modelim pakāpeniski pilnveoties, izmantojot katra cikla uzlabotās izvades kā jaunus apmācības datus nākamajam ciklam.
Kvantitatīvi OpenVLThinker-7B ievērojami pārspēja savu bāzes modeli Qwen2.5-VL-7B. MathVista testā tas sasniedza 70,2% precizitāti, salīdzinot ar bāzes modeļa 50,2%. MathVerse testā uzlabojums bija no 46,8% līdz 68,5%. MathVision pilna testa precizitāte pieauga no 24,0% līdz 29,6%, un MathVision testmini uzlabojās no 25,3% līdz 30,4%. Šie uzlabojumi norāda, ka modelis iemācījās sekot spriešanas shēmām un labāk vispārināja neredzētiem daudzveidu uzdevumiem. Katrs apmācības cikls deva uzmērāmus uzlabojumus, parādot kombinētās smalkās pielāgošanas un atalgojuma balstītās mācīšanās efektivitāti cilpveida struktūrā.
Šī modeļa priekšrocību pamatā ir tā iteratīvā struktūra. Tā vairāk koncentrējas uz kvalitāti un struktūru, nevis tikai uz lielu datu apjomu. Katrs SFT un RL cikls uzlabo modeļa spēju saprast attēlu, jautājumu un atbilžu savstarpējās attiecības. Pašpārbaudes un korekcijas rīcība, kas sākotnēji trūka parastajiem LVLM, parādījās kā pastiprinātās mācīšanās ar pārbaudāmiem atalgojuma signāliem blakusprodukts. Tas ļāva OpenVLThinker-7B radīt loģiski konsekventas un interpretējamas spriešanas pēdas. Pat nelieli uzlabojumi, piemēram, samazināta liekā pašrefleksija vai augstāka precizitāte ar īsākām spriešanas ķēdēm, deva ieguldījumu tā kopējā veiktspējā.
Daži galvenie pētījuma secinājumi:
- UCLA pētnieki izstrādāja OpenVLThinker-7B, izmantojot kombinētu SFT un RL pieeju, sākot no Qwen2.5-VL-7B bāzes modeļa.
- Izmantoja iteratīvus apmācības ciklus, ieskaitot parakstu ģenerēšanu, spriešanas destilēšanu un mijiedarbīgu SFT un GRPO pastiprināto mācīšanos.
- Sākotnējā SFT izmantoja 25 000 filtrētus piemērus, bet RL fāzēs tika izmantoti mazāki 5000 grūtāku paraugu komplekti no datu kopām, piemēram, Geometry3K un SuperCLEVR.
- MathVista testā precizitāte uzlabojās no 50,2% (bāzes modelis) līdz 70,2%. MathVerse precizitāte pieauga no 46,8% līdz 68,5%, un citās datu kopās arī tika novēroti ievērojami uzlabojumi.
- GRPO efektīvi uzlaboja spriešanas rīcību, atalgodot pareizās atbildes, samazinot lieko vārdu daudzumu un uzlabojot loģisko konsekvenci.
- Katra apmācības iterācija deva pakāpeniskus veiktspējas uzlabojumus, apstiprinot pašuzlabošanās stratēģijas efektivitāti.
- Izveidoja iespēju ieviest R1-stila daudzpakāpju spriešanu daudzveidu modeļos, kas noderēs izglītības, vizuālās analītikas un palīgtehnoloģiju lietojumiem.
Apskatiet pētījuma publikāciju, modeli Hugging Face platformā un GitHub lapu. Visu atzinību par šo pētījumu izpildītājiem. Jūs varat arī sekot mums X (Twitter) un pievienoties mūsu 85k+ lielajai mašīnmācīšanās kopienai Reddit.
https://www.marktechpost.com/