Efektīva Zināšanu Bāzes Paplašināšana Lieliem Valodu Modeļiem Bez Meklēšanas Pieslodzes
Efektīva zināšanu bāzes papildināšana lielo valodu modeļiem
Lieli valodu modeļi (LLM) ir parādījuši spēcīgas spriešanas un zināšanu iespējas, taču bieži vien tiem nepieciešama ārējās zināšanu papildināšana, ja to iekšējās reprezentācijās trūkst konkrētu detaļu. Viena no metodēm jaunas informācijas iekļaušanai ir uzraudzīta precizēšana, kur modeļi tiek apmācīti uz papildu datu kopām, lai atjauninātu to svarus. Tomēr šī pieeja nav efektīva, jo tā prasa pārmācību ikreiz, kad tiek ieviestas jaunas zināšanas, un var izraisīt katastrofālu aizmirstību, pasliktinot modeļa veiktspēju vispārīgos uzdevumos.
Lai pārvarētu šos ierobežojumus, populārākas kļuvušas alternatīvas metodes, kas saglabā modeļa svarus. RAG ir viena no šādām pieejām, kas atgūst atbilstošās zināšanas no nestrukturēta teksta un pievieno tās ievades vaicājumam pirms tā nodošanas caur modeli. Dinamiski atgūstot informāciju, RAG ļauj LLM piekļūt lielām zināšanu bāzēm, vienlaikus saglabājot mazāku konteksta izmēru. Tomēr, parādoties ilgāka konteksta modeļiem, piemēram, GPT-4 un Gemini, pētnieki ir izpētījuši mācīšanos kontekstā, kur ārējās zināšanas tiek nodrošinātas tieši modeļa ievadē. Tas novērš nepieciešamību pēc atgūšanas, taču rada skaitļošanas problēmas, jo garu kontekstu apstrāde prasa ievērojami vairāk atmiņas un laika.
Uzlabotas metodes zināšanu integrēšanai
Ir izstrādātas vairākas uzlabotas metodes, lai uzlabotu LLM spēju efektīvāk integrēt ārējās zināšanas. Strukturētie uzmanības mehānismi uzlabo atmiņas efektivitāti, sadalot kontekstu neatkarīgās sadaļās, samazinot pašuzmanības skaitļošanas slodzi. Atslēgas-vērtības (KV) kešatmiņa optimizē atbildes ģenerēšanu, uzglabājot iepriekš aprēķinātus ieguljumus dažādos slāņos, ļaujot modelim atsaukt atbilstošu informāciju bez tās pārrēķināšanas. Tas samazina sarežģītību no kvadrātiskas līdz lineārai attiecībā pret konteksta garumu.
Džonsa Hopkinsa Universitātes un Microsoft pētnieki ir ierosinājuši Zināšanu bāzes papildināto valodu modeli (KBLAM), metodi ārējo zināšanu integrēšanai LLM. KBLAM pārveido strukturētās zināšanu bāzes (KB) trīskāršus par atslēgas-vērtību vektoru pāriem, nevainojami tos ieguldot LLM uzmanības slāņos. Atšķirībā no RAG, tas novērš ārējos atgūšanas mehānismus, un atšķirībā no mācīšanās kontekstā, tas mērogojas lineāri ar KB izmēru. KBLAM ļauj veikt efektīvus dinamiskus atjauninājumus bez pārmācības un uzlabo interpretējamību.
KBLAM darbības princips
KBLAM uzlabo LLM, integrējot KB divos posmos. Pirmkārt, katrs KB trīskāršs tiek pārveidots par nepārtrauktiem atslēgas-vērtību ieguljumiem, izmantojot iepriekš apmācītu teikumu kodētāju un lineārus adapterus. Šie ieguljumi pēc tam tiek iekļauti katrā uzmanības slānī, izmantojot taisnstūra uzmanības struktūru, ļaujot efektīvi atgūt informāciju, nemainot LLM pamata parametrus. Šī metode nodrošina mērogojamību, mazina pozicionālās aizspriedumus un saglabā spriešanas spējas.
KBLAM empīriskā vērtējumā pierādījis savu efektivitāti kā zināšanu atgūšanas un spriešanas modelis. Pēc instrukciju precizēšanas tā uzmanības matrica uzrāda interpretējamas shēmas, ļaujot precīzi atgūt informāciju. KBLAM sasniedz veiktspēju, kas salīdzināma ar mācīšanos kontekstā, ievērojami samazinot atmiņas izmantošanu un saglabājot mērogojamību līdz 10K trīskāršiem. Tas var arī atteikties atbildēt, ja netiek atrastas atbilstošas zināšanas, un “pārmērīga atteikšanās” notiek vēlāk nekā mācīšanās kontekstā.
Noslēgumā KBLAM ir pieeja LLM papildināšanai ar ārējām KB. Tas kodē KB ierakstus kā nepārtrauktus atslēgas-vērtību vektoru pārus, izmantojot iepriekš apmācītus teikumu kodētājus ar lineāriem adapteriem, un integrē tos LLM, izmantojot specializētu uzmanības mehānismu. Atšķirībā no RAG, KBLAM novērš ārējos atgūšanas moduļus, un atšķirībā no mācīšanās kontekstā, tas mērogojas lineāri ar KB izmēru. Tas ļauj efektīvi integrēt vairāk nekā 10K trīskāršus 8B LLM 8K konteksta logā, izmantojot vienu A100 GPU.
Vairāk informācijas var atrast pētījuma rakstā un GitHub lapā. Visu atzinību par šo pētījumu izsaka tā autoriem. Sekojiet mums arī Twitter un pievienojieties mūsu 85k+ ML kopienai Reddit.
https://www.marktechpost.com/