RWKV-7: Atkārtoto Neironu Tīklu Attīstība Efektīvai Secību Modelēšanai
Jauns pētījums par efektīvu secību modelēšanu
Autoregresīvie transformatori ir kļuvuši par vadošo pieeju secību modelēšanā, pateicoties to spējai mācīties kontekstā un paralēlizējamai apmācībai, ko nodrošina softmax uzmanības mehānisms. Tomēr šim mehānismam ir kvadrātiskā sarežģītība attiecībā pret secības garumu, kas rada augstas skaitļošanas un atmiņas prasības, īpaši garām secībām. Lai arī GPU optimizācijas mazina šo problēmu īsām secībām, liela mēroga secināšana joprojām paliek dārga. Pētnieki ir izpētījuši rekurentas arhitektūras ar kompresīviem stāvokļiem, kas piedāvā lineāru sarežģītību un pastāvīgu atmiņas izmantošanu. Progresē lineārā uzmanība un stāvokļa telpas modeļi (SSM), un RNN pieejas, piemēram, RWKV-4, sasniedz konkurētspējīgus rezultātus, ievērojami samazinot secināšanas izmaksas.
Pētnieku grupa no vairākām institūcijām, tostarp RWKV projekta, EleutherAI, Cjiņhuas Universitātes un citām, ieviesa RWKV-7 “Goose” – jaunu secību modelēšanas arhitektūru, kas nodrošina jaunus vadošos rezultātus 3 miljardu parametru līmenī daudzvalodu uzdevumos. Lai arī šis modelis ir apmācīts uz ievērojami mazāk datu vienībām nekā konkurentu modeļi, tas sasniedz salīdzināmu angļu valodas veiktspēju, vienlaikus saglabājot pastāvīgu atmiņas izmantošanu un secināšanas laiku katram tokenam. Arhitektūra paplašina delta likumu, iekļaujot vektoru vērtību stāvokļa vārtus, adaptīvas mācīšanās ātrumus kontekstā un uzlabotu vērtību aizstāšanas mehānismu. Šie uzlabojumi paaugstina izteiksmīgumu, ļauj efektīvi sekot līdzi stāvokļiem un atpazīt visas regulārās valodas, pārsniedzot transformatoru teorētiskās iespējas standarta sarežģītības pieņēmumos. Lai atbalstītu tā izstrādi, pētnieki publiskoja plašu 3,1 triljonu tokenu daudzvalodu korpusu, kā arī vairākus iepriekš apmācītus RWKV-7 modeļus ar parametru skaitu no 0,19 līdz 2,9 miljardiem, visi pieejami atvērtā koda Apache 2.0 licencē.
RWKV-7 ieviesa vairākus jauninājumus, kas balstīti uz RWKV-6 arhitektūru, tostarp tokenu nobīdi, bonusu mehānismus un ReLU² priekšējā barošanas tīklu. Modeļa apmācības korpuss, RWKV World v3, uzlabo tā angļu valodas, programmēšanas koda un daudzvalodu spējas. Papildus modeļu publiskošanai, komanda sniedza pierādījumu, ka RWKV-7 var atrisināt problēmas, kas pārsniedz TC₀ sarežģītību, tostarp S₅ stāvokļa izsekošanu un regulāro valodu atpazīšanu. Tas parāda tā spēju efektīvāk apstrādāt skaitļošanas sarežģītus uzdevumus nekā transformatori. Turklāt pētnieki ierosina ekonomiski izdevīgu metodi RWKV arhitektūras uzlabošanai bez pilnīgas pārmācības, atvieglojot pakāpeniskus uzlabojumus. Lielāku datu kopu un modeļu izstrāde turpināsies ar atvērtā koda licencēm, nodrošinot plašu pieejamību un reproducējamību.
RWKV-7 modeļus izvērtēja, izmantojot LM Evaluation Harness dažādos angļu valodas un daudzvalodu testos, parādot konkurētspējīgu veiktspēju salīdzinājumā ar vadošajiem modeļiem, izmantojot mazāk apmācības tokenu. RWKV-7 pārspēja savu priekšteci MMLU testā un ievērojami uzlaboja rezultātus daudzvalodu uzdevumos. Turklāt, izvērtējot nesenus interneta datus, tika apstiprināta tā efektivitāte informācijas apstrādē. Modelis izcēlās asociatīvajā atsaukšanā, mehānistiskās arhitektūras projektēšanā un garu kontekstu saglabāšanā. Neskatoties uz apmācības resursu ierobežojumiem, RWKV-7 parādīja augstu efektivitāti, sasniedzot spēcīgus rezultātus testos, patērējot mazāk FLOP nekā vadošie transformatoru modeļi.
Noslēgumā, RWKV-7 ir RNN balstīta arhitektūra, kas sasniedz vadošos rezultātus dažādos testos, pieprasot ievērojami mazāk apmācības tokenu. Tā saglabā augstu parametru efektivitāti, lineāru laika sarežģītību un pastāvīgu atmiņas izmantošanu, padarot to par spēcīgu alternatīvu transformatoriem. Tomēr tai ir ierobežojumi, piemēram, jutība pret skaitlisko precizitāti, trūkstoša instrukciju regulēšana, jutība pret uzdevumu formulējumiem un ierobežoti skaitļošanas resursi. Nākotnes uzlabojumi ietver ātruma optimizēšanu, ķēdes domāšanas iekļaušanu un mērogošanos ar lielākām datu kopām. RWKV-7 modeļi un apmācības kods ir brīvi pieejami saskaņā ar Apache 2.0 licenci, veicinot pētījumus un izstrādi efektīvā secību modelēšanā.
Lasiet vairāk pētījumā Paper. Visu atzinību par šo pētījumu izpildītājiem. Sekojiet mums arī Twitter un pievienojieties mūsu 85k+ ML SubReddit.
https://www.marktechpost.com/