Skip to main content

NVIDIA AI Pētnieki Ievieš FFN Fūziju: Jauna Optimizācijas Tehnika, Kas Parāda, Kā Lielo Valodu Modeļu (LLM) Secīgo Aprēķinu Var Efektīvi Paralelizēt

Jauna optimizācijas tehnika lielo valodu modeļu efektivitātes uzlabošanai

Lieli valodu modeļi (LLM) ir kļuvuši par svarīgu rīku dažādās jomās, ļaujot veikt augstas veiktspējas uzdevumus, piemēram, dabiskās valodas ģenerēšanu, zinātniskos pētījumus un sarunu aģentus. Šo progresu ir iespējots pateicoties transformatoru arhitektūrai, kurā uzmanības mehānismi un pārtraukti tīkli (FFN) secīgi apstrādā ievades datus. Tomēr, palielinoties modeļu izmēram un sarežģītībai, pieaug arī skaitļošanas slodze, radot efektivitātes problēmas. Efektīva secināšana ir kļuvusi par kritisku jautājumu, un daudzas pētnieku grupas koncentrējas uz stratēģijām, kas varētu samazināt aizkavi, palielināt produktivitāti un samazināt skaitļošanas izmaksas, vienlaikus saglabājot vai uzlabojot modeļu veiktspēju.

Šīs efektivitātes problēmas centrā ir transformatoru raksturīgā secīgā struktūra. Katra slāņa izvade tiek padota nākamajam, pieprasot stingru secību un sinhronizāciju, kas ir īpaši problemātiski lielos mērogos. Palielinoties modeļu izmēriem, pieaug arī secīgo aprēķinu un komunikācijas izmaksas starp GPU, kas noved pie zemākas efektivitātes un augstākiem izvietošanas izmaksām. Šis izaicinājums pastiprinās situācijās, kurās nepieciešama ātra, vairāku tokenu ģenerēšana, piemēram, reāllaika AI asistentos. Šīs secīgās slodzes samazināšana, vienlaikus saglabājot modeļa iespējas, ir nozīmīgs tehniskās izaicinājums. Jaunu paralelizācijas stratēģiju atklāšana, kas saglabā precizitāti, bet ievērojami samazina skaitļošanas dziļumu, ir būtiska, lai paplašinātu LLM pieejamību un mērogojamību.

Efektivitātes uzlabošanas metodes

Vairākas metodes ir parādījušās, lai uzlabotu efektivitāti. Kvantizācija samazina skaitlisko attēlojumu precizitāti, lai samazinātu atmiņas un skaitļošanas vajadzības, lai gan tā bieži rada precizitātes zudumu risku, īpaši zemā bitu platībā. Apgriešana novērš liekos parametrus un vienkāršo modeļus, taču bez rūpīgas uzmanības tas var pasliktināt precizitāti. Ekspertu maisījuma (MoE) modeļi aktivizē tikai daļu parametru katram ievadam, padarot tos ļoti efektīvus konkrētiem darba slodzes veidiem. Tomēr tie var nestrādāt optimāli vidēja lieluma partijās, pateicoties zema līmeņa aparatūras izmantošanai. Lai gan šīs stratēģijas ir vērtīgas, tām ir kompromisi, kas ierobežo to universālo pielietojamību. Tāpēc šī joma meklē metodes, kas nodrošina plašus efektivitātes uzlabojumus ar mazākiem kompromisiem, īpaši blīvām arhitektūrām, kuras ir vienkāršāk apmācīt, izvietot un uzturēt.

FFN Fusion – jauna optimizācijas tehnika

NVIDIA pētnieki ir ieviesuši jaunu arhitektūras optimizācijas paņēmienu, ko sauc par FFN Fusion, kas risina secīgās transformatoru problēmas, identificējot FFN sekvences, kuras var izpildīt paralēli. Šī pieeja radās, novērojot, ka, izmantojot Puzzle rīku, lai noņemtu uzmanības slāņus, modeļos bieži paliek garas FFN sekvences. Šīs sekvences rāda minimālu savstarpējo atkarību, un tāpēc tās var apstrādāt vienlaicīgi. Analizējot tādu LLM struktūru kā Llama-3.1-405B-Instruct, pētnieki izveidoja jaunu modeli ar nosaukumu Ultra-253B-Base, apgriežot un pārstrukturējot bāzes modeli, izmantojot FFN Fusion. Šī metode rada ievērojami efektīvāku modeli, kas saglabā konkurētspējīgu veiktspēju.

FFN Fusion apvieno vairākus secīgus FFN slāņus vienā, platākā FFN. Šis process ir balstīts uz matemātisku līdzvērtību: savienojot vairāku FFN svarus, var izveidot vienu moduli, kas darbojas kā sākotnējo slāņu summa, bet to var aprēķināt paralēli. Piemēram, ja trīs FFN ir sakārtoti secīgi, katrs atkarīgs no iepriekšējā izvades, to savienošana novērš šīs atkarības, nodrošinot, ka visi trīs darbojas ar vienu un to pašu ievadi un to izvades tiek apkopotas. Šīs metodes teorētiskais pamats parāda, ka apvienotais FFN saglabā to pašu reprezentācijas spēju. Pētnieki veica atkarības analīzi, izmantojot kosinusa attālumu starp FFN izvadiem, lai identificētu reģionus ar zemu savstarpējo atkarību. Šie reģioni tika uzskatīti par optimāliem apvienošanai, jo minimālas izmaiņas tokenu virzienā starp slāņiem norādīja uz paralēlas apstrādes iespējamību.

Rezultāti un perspektīvas

FFN Fusion pielietošana Llama-405B modelim radīja Ultra-253B-Base, kas nodrošināja ievērojamus ātruma un resursu efektivitātes uzlabojumus. Konkrēti, jaunais modelis sasniedza 1,71 reizes lielāku secināšanas aizkavi un samazināja aprēķinu izmaksas par tokenu par 35 reizēm partijas izmērā 32. Šī efektivitāte nenāca uz veiktspējas rēķina. Ultra-253B-Base ieguva 85,17% MMLU, 72,25% MMLU-Pro, 84,92% Arena Hard, 86,58% HumanEval un 9,19 MT-Bench. Šie rezultāti bieži vien bija līdzvērtīgi vai pārspēja sākotnējo 405B parametru modeli, kaut arī Ultra-253B-Base saturēja tikai 253 miljardus parametru. Atmiņas izmantošana arī uzlabojās, samazinot kv-cache prasības 2 reizes. Apmācības process ietvēra 54 miljardu tokenu destilāciju 8k konteksta logā, kam sekoja pakāpeniska precizēšana 16k, 32k un 128k kontekstos. Šīs darbības nodrošināja, ka apvienotais modelis saglabāja augstu precizitāti, vienlaikus gūstot labumu no samazināta izmēra.

Šis pētījums parāda, kā pārdomāta arhitektūras pārveidošana var atvērt ievērojamus efektivitātes uzlabojumus. Pētnieki parādīja, ka FFN slāņi transformatoru arhitektūrās bieži vien ir neatkarīgāki, nekā iepriekš pieņemts. Viņu metode, lai kvantificētu starpslāņu atkarību un pārveidotu modeļu struktūras, ļāva plašāku pielietojumu dažāda izmēra modeļiem. Šī tehnika tika apstiprināta arī uz 70B parametru modeļa, pierādot tās vispārīgo pielietojamību. Turpmākie eksperimenti norādīja, ka, lai gan FFN slāņus bieži var apvienot ar minimālu ietekmi, pilna bloku paralelizācija, ieskaitot uzmanību, rada lielāku veiktspējas pasliktināšanos, pateicoties spēcīgākām savstarpējām atkarībām.

Galvenie secinājumi

  • FFN Fusion tehnika samazina secīgos aprēķinus transformatoros, paralēli apstrādājot FFN slāņus ar zemu atkarību.
  • Apvienošana tiek panākta, aizstājot FFN sekvences ar vienu plašāku FFN, izmantojot savienotus svarus.
  • Ultra-253B-Base, kas iegūts no Llama-3.1-405B, sasniedz 1,71 reizes ātrāku secināšanu un 35 reizes zemākas izmaksas par tokenu.
  • Benchmark rezultāti ietver: 85,17% (MMLU), 72,25% (MMLU-Pro), 86,58% (HumanEval), 84,92% (Arena Hard) un 9,19 (MT-Bench).
  • Atmiņas izmantošana tiek samazināta uz pusi, pateicoties kv-cache optimizācijai.
  • FFN Fusion ir efektīvāka lielākos modeļu mērogos un labi darbojas ar tādām metodēm kā apgriešana un kvantizācija.
  • Pilna transformatoru bloku paralelizācija rāda potenciālu, taču nepieciešami turpmāki pētījumi, pateicoties spēcīgākām savstarpējām atkarībām.
  • Sistemātiska metode, izmantojot kosinusa attālumu, palīdz identificēt, kuras FFN sekvences var droši apvienot.
  • Tehnika ir apstiprināta dažāda izmēra modeļiem, tostarp 49B, 70B un 253B.
  • Šī pieeja liek pamatus vairāk paralēli draudzīgām un aparatūrai efektīvākām LLM konstrukcijām.

Lasiet vairāk pētījumā. Visu atzinību par šo pētījumu izpildi pelnījuši šī projekta pētnieki. Sekojiet mums arī Twitter un pievienojieties mūsu 85k+ ML SubReddit.

https://www.marktechpost.com/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *