GRPO Open-RS: Zemaizmaksu RL Rāmītis Maziem Valodu Modeļiem, Lai Uzlabotu Spēju Spriest
Pētījums par mazo valodu modeļu uzlabošanu ar zemu izmaksu pieeju
Viens no galvenajiem uzsvariem lielo valodu modeļu attīstībā ir to loģiskās domāšanas un problēmu risināšanas prasmju uzlabošana. Šajā jomā arvien plašāk tiek izmantota pastiprinātā mācīšanās (RL), lai uzlabotu gan milzīgus modeļus, gan kompaktus variantus, kas var darboties ierobežotās skaitļošanas vidēs. Galvenais izaicinājums ir uzlabot modeļa spēju spriest, nepaļaujoties uz milzīgu infrastruktūru vai pārmērīgu apmācības laiku. Vadošie modeļi prasa dārgu aparatūru un patentētas datu pārstrādes sistēmas, padarot tos nepieejamus mazākām laboratorijām vai uzņēmumiem. Tas rada jautājumu – vai mazākus modeļus var uzlabot, izmantojot izmaksu efektīvas pieejas, un sasniegt līdzvērtīgu veiktspēju sarežģītos uzdevumos, piemēram, matemātiskajā spriešanā.
Ir pārbaudītas vairākas metodes, lai risinātu šo problēmu. Ķēdes domāšanas (chain-of-thought) pieeja palīdz modeļiem virzīties caur problēmas risināšanas soļiem. Tiek izmantoti arī meklēšanas algoritmi, piemēram, Beam Search un Montekarlo koka meklēšana, lai uzlabotu atbilžu loģisko plūsmu. Pastiprinātā mācīšanās ir pārbaudīta dažādos iestatījumos. Tomēr daudzas no šīm pieejām joprojām saskaras ar tādām pašām problēmām – tās ir atkarīgas no milzīgiem datu kopumiem vai rada nestabilu veiktspēju mazākos apstākļos. Turklāt rezultāti bieži vien neatbilst tādiem patentētiem modeļiem kā OpenAI o1-preview.
Pētnieku komanda no Knovel Engineering Lab Singapūrā un VNU University of Science Vjetnamā koncentrējās uz šo problēmu risināšanu. Viņi izmantoja 1,5 miljardu parametru lielu modeli ar nosaukumu DeepSeek-R1-Distill-Qwen-1.5B. Pētījumā tika izmantots Group Relative Policy Optimization (GRPO) algoritms, un modelis tika apmācīts, izmantojot četras NVIDIA A40 GPU ar 48 GB VRAM katrā, visu 24 stundu laikā. Galvenais mērķis bija uzlabot modeļa spēju spriest, neveicot lielus finanšu vai skaitļošanas ieguldījumus. Viņu apmācības izmaksas bija tikai 42 ASV dolāri, kas ir ievērojams samazinājums salīdzinājumā ar citām metodēm, kas prasa tūkstošiem dolāru.
Lai to panāktu, komanda izveidoja datu kopumu no 39 659 matemātikas uzdevumiem, attīrot divus esošus datu avotus – open-s1 un open-deep scale. Filtrēšanas procesā tika izslēgti triviāli vai trokšņaini jautājumi, izmantojot citus modeļus, piemēram, Qwen2.5-7B-Instruct un DeepSeek-R1-Distill-Qwen-1.5B. Atalgojuma sistēma bija balstīta uz noteikumiem un koncentrējās uz trim komponentiem: atbilžu pareizību (izmantojot boxed notation), struktūras formatējumu (ar tagu palīdzību) un izvades garumu (veicinot kodolīgu spriešanu ar kosinusa funkciju). GRPO algoritms tika izmantots, lai atlasītu grupu atbildes un pielietotu punktu balstītu optimizāciju, izvairoties no nepieciešamības pēc kritiskā modeļa un tādējādi samazinot skaitļošanas pieprasījumu.
Šīs pieejas veiktspēja tika pārbaudīta piecos datu kopos: AMC23, AIME24, MATH-500, OlympiadBench un Minerva. Vienā eksperimentā, izmantojot tikai open-s1 datu kopu, modeļa precizitāte AMC23 uzdevumos uzlabojās no 63% līdz 70% pirmajos 100 globālajos soļos, bet vēlāk samazinājās. Citā pārbaudē, kurā tika apvienoti 7000 dažāda grūtības līmeņa paraugi, precizitāte AMC23 sasniedza 80%, bet AIME24 – 46,7%. Modelis ar nosaukumu Open-RS2 šajā iestatījumā uzrādīja arī konkurētspējīgus rezultātus OlympiadBench (52,4%) un MATH-500 (85%). Pēdējā eksperimentā kosinusa atalgojums palīdzēja regulēt izvades garumu diapazonā no 1000 līdz 3500 tokeniem, un modelis saglabāja 72,5% precizitāti AMC23 un 84,4% MATH-500.
Šis pētījums parādīja, ka efektīva spriešana mazos valodos modeļos ir iespējama pat ar ierobežotiem resursiem. Mazo modeļu apmācības problēma tika atrisināta ar zemu izmaksu un efektīvu stratēģiju. Piedāvātā metode izmantoja pastiprināto mācīšanos un rūpīgi atlasītus datus, lai sasniegtu pārsteidzoši spēcīgus rezultātus. Turpinot uzlabot atalgojuma dizainu un optimizācijas stabilitāti, mazi modeļi drīz varētu konkurēt ar lielākiem modeļiem praktiskajos spriešanas uzdevumos.
Plašākai informācijai apskatiet pētījumu un GitHub lapu. Visu atzinību par šo pētījumu saņem tā autori. Sekojiet mums arī X un pievienojieties mūsu 85k+ lielajai mašīnmācīšanās kopienai Reddit.
https://www.marktechpost.com/