NVIDIA AI atver avotu kodu ar Dynamo: Atvērtā koda inferences bibliotēka AI spriešanas modeļu paātrināšanai un mērogošanai AI rūpnīcās
Jauna atvērtā koda risinājuma ieviešana AI infrastruktūrā
Mākslīgā intelekta (AI) straujā attīstība ir novedusi pie sarežģītu modeļu izveides, kas spēj saprast un ģenerēt cilvēkam līdzīgu tekstu. Šo lielo valodu modeļu (LLM) ieviešana reālās lietojumprogrammās rada ievērojamas grūtības, īpaši veicinot veiktspēju un efektīvi pārvaldot skaitļošanas resursus.
Izaicinājumi AI spriešanas modeļu mērogošanā
AI modeļu pieaugošā sarežģītība palielina to izvietošanas prasības, īpaši secināšanas (inference) fāzē — posmā, kad modeļi ģenerē izvades datus, balstoties uz jauniem ievadiem. Galvenie izaicinājumi ietver:
- Resursu piešķiršana: Skaitļošanas slodzes balansēšana paplašinātās GPU klasteros, lai novērstu pārslodzi un nepietiekamu resursu izmantošanu.
- Kavējuma samazināšana: Ātras atbildes nodrošināšana ir būtiska lietotāju apmierinātībai, tādēļ nepieciešami secināšanas procesi ar zemu kavējumu.
- Izmaksu pārvaldība: LLM ievērojamās skaitļošanas prasības var radīt augošas ekspluatācijas izmaksas, tādēļ ir nepieciešami ekonomiski izdevīgi risinājumi.
NVIDIA Dynamo ieviešana
Atbildot uz šiem izaicinājumiem, NVIDIA ir izstrādājusi Dynamo — atvērtā koda secināšanas bibliotēku, kas paredzēta AI spriešanas modeļu efektīvai un ekonomiskai paātrināšanai un mērogošanai. Kā NVIDIA Triton Inference Server™ pēctecis, Dynamo piedāvā modulāru sistēmu, kas pielāgota sadalītām vidēm, ļaujot vienmērīgi mērogot secināšanas darba slodzes lielās GPU flotēs.
Tehniskie uzlabojumi un priekšrocības
Dynamo iekļauj vairākus būtiskus uzlabojumus, kas kopumā uzlabo secināšanas veiktspēju:
- Atdalīta apkalpošana: Šī pieeja atdala LLM secināšanas konteksta (prefill) un ģenerēšanas (decode) fāzes, piešķirot tās atšķirīgām GPU vienībām. Atsevišķi optimizējot katru fāzi, tiek uzlabota resursu izmantošana un palielināts apkalpoto pieprasījumu skaits uz vienu GPU.
- GPU resursu plānotājs: Dynamo plānošanas mehānisms dinamiski pielāgo GPU piešķiršanu, reaģējot uz mainīgu lietotāju pieprasījumu, tādējādi novēršot pārslodzi vai nepietiekamu resursu izmantošanu.
- Gudrais maršrutētājs: Šī sastāvdaļa efektīvi nosūta ienākošos secināšanas pieprasījumus pa lielām GPU flotēm, samazinot dārgo pārrēķinu nepieciešamību, izmantojot iepriekšējo pieprasījumu datus (KV cache).
- Zema kavējuma komunikācijas bibliotēka (NIXL): NIXL paātrina datu pārsūtīšanu starp GPU vienībām un dažādiem atmiņas un glabāšanas veidiem, samazinot atbildes laiku un vienkāršojot datu apmaiņas procesus.
- KV kešatmiņas pārvaldnieks: Retāk izmantotos secināšanas datus pārnesot uz ekonomiskākām atmiņas un glabāšanas ierīcēm, Dynamo samazina kopējās secināšanas izmaksas, neietekmējot lietotāju pieredzi.
Veiktspējas rezultāti
Dynamo ietekme uz secināšanas veiktspēju ir ievērojama. Izmantojot atvērtā koda DeepSeek-R1 671B modeli uz NVIDIA GB200 NVL72, Dynamo palielināja veiktspēju — mērot tokenos sekundē uz vienu GPU — līdz pat 30 reizēm. Turklāt, apkalpojot Llama 70B modeli uz NVIDIA Hopper™, tika sasniegts vairāk nekā divkārtīgs veiktspējas pieaugums.
Šie uzlabojumi ļauj AI pakalpojumu sniedzējiem apkalpot vairāk secināšanas pieprasījumu uz vienu GPU, paātrināt atbildes laikus un samazināt ekspluatācijas izmaksas, tādējādi maksimāli palielinot atdevi no ieguldījumiem paātrinātajā skaitļošanā.
Noslēgums
NVIDIA Dynamo ir nozīmīgs sasniegums AI spriešanas modeļu izvietošanā, risinot kritiskus mērogošanas, efektivitātes un izmaksu efektivitātes izaicinājumus. Tā atvērtā koda daba un saderība ar galvenajiem AI secināšanas risinājumiem, tostarp PyTorch, SGLang, NVIDIA TensorRT™-LLM un vLLM, dod iespēju uzņēmumiem, jaunuzņēmumiem un pētniekiem optimizēt AI modeļu apkalpošanu sadalītās secināšanas vidēs. Izmantojot Dynamo inovatīvās funkcijas, organizācijas var uzlabot savas AI iespējas, sniedzot ātrākus un efektīvākus AI pakalpojumus, lai apmierinātu moderno lietojumprogrammu pieaugošās prasības.
Plašāku informāciju skatiet tehnisko detaļu un GitHub lapā. Visu atzinību par šo pētījumu izpildi tā autoriem.
https://www.marktechpost.com/