Dr. GRPO: Bezšķirojošā mācīšanās metode, kas uzlabo lielo valodu modeļu matemātisko spriešanu
Pētījums par uzlabotu lielo valodu modeļu matemātisko spēju apmācību
Viens no nozīmīgākajiem sasniegumiem pēdējā laikā ir pastiprinātās mācīšanās (RL) metožu izpēte, lai uzlabotu lielos valodu modeļus (LLM) pārsniedzot tradicionālās uzraudzītās fine-tuning metodes. RL ļauj modeļiem apgūt optimālas atbildes, izmantojot atlīdzības signālus, uzlabojot to spēju spriest un pieņemt lēmumus. RL ievieš atsauksmēm balstītu apmācības ciklu, kas labāk atbilst cilvēkam līdzīgām mācīšanās procesiem, īpaši uzdevumos, kuros nepieciešama pakāpeniska problēmu risināšana vai matemātiska spriešana. Šī LLM un RL savstarpējā mijiedarbība kļūst par nozīmīgu akadēmiskās pētniecības un nozares inovāciju jomu.
Galvenais izaicinājums, uzlabojot LLM sarežģītu spriešanas uzdevumiem, ir nodrošināt, ka šie modeļi attīsta labākas domāšanas prasmes, nevis vienkārši rada garākus izvadītos tekstus. Pastiprinātās mācīšanās apmācībā ir novērota tendence, ka modeļi sāk ģenerēt pārāk garas atbildes, nemaz neuzlabojot atbilžu kvalitāti. Tas rada bažas par optimizācijas novirzēm RL metodēs, kas varētu favorizēt pārlieku daudzrunību, nevis pareizību. Vēl viena sarežģītība saistīta ar pašiem bāzes modeļiem – daži jau uzrāda zināmas spriešanas spējas, kas apgrūtina RL ietekmes izolēšanu. Tādēļ ir būtiski saprast, kā apmācības stratēģijas un modeļu pamati ietekmē gala rezultātus.
Iepriekš LLM pastiprinātās mācīšanās pēcapstrāde bieži balstījās uz algoritmiem, piemēram, Proximal Policy Optimization (PPO), kas tiek plaši izmantoti dažādās open-source implementācijās. Šīs implementācijas bieži ietvēra atbildes garuma normalizācijas soli, kas neapzināti ieviesa novirzes, kas veicināja garākas vai īsākas atbildes atkarībā no to pareizības. Kā variants tika ieviests Group Relative Policy Optimization (GRPO), lai optimizētu politikas atjauninājumus grupu līmenī. Lai gan efektīvs, GRPO ir saņēmis kritiku par smalkām optimizācijas novirzēm, kas ietekmē modeļa atbilžu garumu un kvalitāti. Šīs esošās metodes, kaut arī inovatīvas, ir parādījušas ierobežojumus, kas aizseg faktiskos pastiprinātās mācīšanās ieguvumus.
Pētnieki no Sea AI Lab, Nacionālās Singapūras Universitātes un Singapūras Vadības Universitātes ir izstrādājuši jaunu pieeju, ko dēvē par Dr. GRPO (Group Relative Policy Optimization Done Right), lai risinātu šīs problēmas. Šī metode no GRPO formulas izslēdz problemātiskos normalizācijas terminus. Konkrēti, tā likvidē atbildes garuma un standarta novirzes skalēšanas faktorus, kas izraisīja nelīdzsvarotību modeļa atjauninājumos. Pārveidotais algoritms godīgāk aprēķina gradientus dažādām atbildēm un jautājumu tipiem. Pētnieki šo metodi pielietoja, lai apmācītu Qwen2.5-Math-7B, open-source bāzes modeli, un demonstrēja tās efektivitāti vairākos testos. Apmācības process izmantoja 27 stundas skaitļošanas laika uz 8× A100 GPU, kas ir samērā pieticīgs, ņemot vērā sasniegtos rezultātus.
Pētnieki testēja savu metodi vadošajos matemātiskās spriešanas testos, tostarp AIME 2024, AMC, MATH500, Minerva Math un OlympiadBench. Dr. GRPO apmācītais modelis sasniedza 43,3% precizitāti AIME 2024, ievērojami pārspējot SimpleRL-Zero-7B (36,0%), Prime-Zero-7B (27,6%) un OpenReasoner-Zero-7B (16,7%). Tas arī uzrādīja spēcīgus vidējos rezultātus visos uzdevumos: 40,9% uz MATH500, 45,8% uz Minerva un 62,7% uz OlympiadBench. Šie rezultāti apstiprina bez-noviržu RL metodes efektivitāti. Būtiski, ka modelis ne tikai uzrādīja labākus rezultātus, bet arī efektīvāk izmantoja tokenus. Nepareizās atbildes kļuva īsākas un koncentrētākas, kas ir ievērojama atšķirība no iepriekšējām apmācības metodēm, kas veicināja pārāk izvērstas atbildes neatkarīgi no to pareizības.
Bez apmācības algoritma, pētnieku grupa arī analizēja bāzes modeļu dabu, ko izmanto R1-Zero līdzīgās RL iestatībās. Viņi atklāja, ka daži modeļi, piemēram, Qwen2.5, uzrāda uzlabotas spējas jau pirms apmācības, iespējams, pateicoties iepriekšējai apmācībai uz jautājumu-atbilžu datu kopām. Piemēram, Qwen2.5-Math-7B modelis sasniedza 38,2% vidējo precizitāti bez jebkādas RL fine-tuning, pārspējot daudzus modeļus, kas apmācīti ar tradicionālām metodēm. Šī iepriekšējā spriešanas spēja sarežģī apgalvojumus par RL ieguvumiem, jo uzlabojumi varētu daļēji nākt no iepriekšējām apmācības stratēģijām, nevis no jaunas mācīšanās caur pastiprināšanu. Cits pārbaudītais modelis, DeepSeek-V3-Base, uzrādīja spontānus “Aha momentus” un pašrefleksijas gadījumus jau pirms RL, vēl vairāk norādot, ka dažas spriešanas prasmes var būt jau iebūvētas bāzes modeļos.
Apmācības laikā uzmanīgi tika izsekotas veiktspējas dinamika. Izmantojot Dr. GRPO, modeļi izvairījās no tendences palielināt atbilžu garumu. Novērtējums atklāja, ka Dr. GRPO saglabāja izvades garumu stabilu, vienlaikus palielinot atlīdzības signālus, liekot domāt, ka pastāv tieša saistība starp apmācību un precizitātes uzlabošanos, ne tikai daudzrunību. Turpretī tradicionālais GRPO noveda pie pakāpeniski garākām nepareizām atbildēm, maldīgi liekot domāt par uzlabošanos. Šis novērojums saskan ar atklājumiem, ka daudzas open-source PPO implementācijas neapzināti ievieš atbildes garuma novirzes, kas ir pārmantota iezīme no iepriekšējās apmācības prakses.
Pētnieki arī izpētīja, kā dažādi veidnes un jautājumu kopas ietekmē modeļa uzvedību. Qwen2.5-Math-1.5B bāzes modelis uzrādīja labākos rezultātus bez promptu veidnēm, sasniedzot 61,6% precizitāti Minerva Math un 45,8% uz MATH500. Pārsteidzoši, ka veidņu izmantošana bieži vien samazināja veiktspēju, pirms RL to atjaunoja. Tas uzsver, kā neatbilstības starp modeļa iepriekšējo apmācību un inferences formātu var aizsegt patiesās spriešanas spējas. Arī modeļi, kas apmācīti uz mazām, vienkāršām jautājumu kopām, piemēram, GSM-8K, bieži pārspēja tos, kas apmācīti uz lielākiem datu kopumiem, apstrīdot pieņēmumu, ka plašāks pārklājums vienmēr noved pie labākas spriešanas.
Daži no galvenajiem pētījuma secinājumiem:
- DeepSeek-V3-Base un Qwen2.5 modeļi uzrāda spriešanas spējas jau pirms RL, norādot uz spēcīgu iepriekšējās apmācības efektu.
- Dr. GRPO novērš GRPO novirzes, noņemot garuma un atlīdzības normalizācijas terminus, uzlabojot tokenu efektivitāti.
- Qwen2.5-Math-7B modelis, kas apmācīts ar Dr. GRPO, sasniedza:
- 43,3% uz AIME 2024
- 62,7% uz OlympiadBench
- 45,8% uz Minerva Math
- 40,9% uz MATH500
- Vidējo rezultātu visos testos: 40,3%
- Nepareizās atbildes, izmantojot Dr. GRPO, bija ievērojami īsākas, izvairoties no nevajadzīgas daudzrunības, kas novērota citās metodēs.
- Qwen2.5 modeļi uzrāda labākus rezultātus bez promptu veidnēm, liekot domāt, ka tie varētu būt apmācīti uz Q&A formatētiem datiem.
- Mazākas jautājumu kopas, piemēram, GSM-8K, var uzrādīt labākus rezultātus nekā lielākas, pretrunājot cerībām.
- Open-source PPO implementācijās bieži ir nevēlamas atbildes garuma novirzes, kuras Dr. GRPO veiksmīgi novērš.
Noslēgumā pētījums atklāj būtiskus ieskatus par to, kā RL ietekmē lielo valodu modeļu uzvedību. Pētnieki atklāja, ka iepriekšējā apmācība spēlē nozīmīgu lomu pamata spēju noteikšanā. Viņi arī demonstrēja, ka optimizācijas novirzes populāros RL algoritmos var maldināt apmācību un novērtēšanu. Dr. GRPO ieviešana novērsa šīs problēmas, novedot pie interpretējamākas un efektīvākas modeļu apmācības. Ar tikai 27 apmācības stundām viņu modelis sasniedza vadošos rezultātus galvenajos matemātiskās spriešanas testos. Šie atklājumi pārveido to, kā kopienai vajadzētu novērtēt RL uzlabotus LLM, vairāk koncentrējoties uz metožu caurspīdīgumu un bāzes modeļu īpašībām, nevis tikai uz veiktspējas metriku.
Plašākai informācijai apskatiet pētījuma publikāciju un GitHub lapu. Visu atzinību par šo pētījumu izpildi saņem pētnieku grupa, kas strādāja pie šī projekta.
https://www.marktechpost.com/