SuperBPE: Valodu Modeļu Attīstība ar Pārrobežu Tokenizāciju
Jauna pieeja valodu modeļu tokenizācijai
Valodu modeļi (VM) saskaras ar būtisku izaicinājumu, kas saistīts ar teksta datu uztveri caur tokenizāciju. Pašreizējie apakšvārdu tokenizatori sadala tekstu vārdnīcas tokenos, kas nevar pārvarēt atstarpes, ievērojot mākslīgu ierobežojumu, kas atstarpes uztver kā semantisku robežu. Šāda prakse ignorē realitāti, ka nozīme bieži pārsniedz atsevišķus vārdus – daudzvārdu izteicieni, piemēram, “a lot of”, darbojas kā vienotas semantiskas vienības, un angļu valodas runātāji garīgi uzglabā tūkstošiem šādu frāžu. Dažādās valodās vienas un tās pašas koncepcijas var tikt izteiktas kā viens vai vairāki vārdi. Īpaši jāatzīmē, ka dažas valodas, piemēram, ķīniešu un japāņu, neizmanto atstarpes, ļaujot tokeniem aptvert vairākus vārdus vai teikumus bez acīmredzamas veiktspējas pasliktināšanās.
Iepriekšējie pētījumi un to ierobežojumi
Iepriekšējie pētījumi ir izpētījuši vairākas pieejas, kas pārsniedz tradicionālo apakšvārdu tokenizāciju. Daži pētījumi ir analizējuši teksta apstrādi vairākos granulitātes līmeņos vai daudzveidīgu tokenu izveidi, izmantojot biežuma balstītu n-gramu identificēšanu. Citi pētnieki ir izpētījuši daudzkārtēju tokenu prognozēšanu (MTP), ļaujot valodu modeļiem paredzēt vairākus tokenus vienā solī, kas apstiprina modeļu spēju apstrādāt vairāk nekā vienu apakšvārdu vienlaicīgi. Tomēr šīs pieejas prasa arhitektūras modifikācijas un fiksē prognozējamo tokenu skaitu katrā solī. Daži pētnieki ir izmantojuš tokenizatora brīvas pieejas, modelējot tekstu tieši kā baitu secības. Tomēr tas ievērojami palielina secību garumus un skaitļošanas prasības, radot sarežģītas arhitektūras risinājumus.
SuperBPE – inovatīva tokenizācijas metode
Pētnieki no Vašingtonas Universitātes, NVIDIA un Allen Institute for AI ir ierosinājuši SuperBPE – tokenizācijas algoritmu, kas izveido vārdnīcu, kas satur gan tradicionālos apakšvārdu tokenus, gan inovatīvos “supervārdu” tokenus, kas aptver vairākus vārdus. Šī pieeja uzlabo populāro baitu pāru kodēšanas (BPE) algoritmu, ieviešot pretokenizācijas mācību programmu, sākotnēli saglabājot atstarpju robežas, lai apgūtu apakšvārdu tokenus, pēc tam noņemot šos ierobežojumus, lai ļautu veidot supervārdu tokenus. Kamēr standarta BPE ātri sasniedz samazinošos atdeves un sāk izmantot arvien retākus apakšvārdus, palielinoties vārdnīcas izmēram, SuperBPE turpina atklāt izplatītas daudzveidīgas secības, lai tās kodētu kā atsevišķus tokenus, uzlabojot kodēšanas efektivitāti.
SuperBPE darbības princips
SuperBPE darbojas, izmantojot divu posmu apmācības procesu, kas modificē tradicionālās BPE pretokenizācijas soli. Šī pieeja intuitīvi veido semantiskas vienības un apvieno tās izplatītās secībās, lai sasniegtu lielāku efektivitāti. Iestatot t=T (t ir pārejas punkts un T ir mērķa izmērs), tiek iegūta standarta BPE, bet t=0 rada naivo atstarpju brīvo BPE. SuperBPE apmācība prasa vairāk skaitļošanas resursu nekā standarta BPE, jo bez atstarpju pretokenizācijas apmācības dati sastāv no ārkārtīgi gariem “vārdiem” ar minimālu dublēšanu. Tomēr šie palielinātie apmācības izmaksas aizņem tikai dažas stundas uz 100 CPU un notiek tikai vienu reizi, kas ir niecīgi, salīdzinot ar resursiem, kas nepieciešami valodu modeļu priekšapmācībai.
SuperBPE veiktspējas rezultāti
SuperBPE demonstrē iespaidīgus rezultātus 30 dažādos testos, kas aptver zināšanas, spriešanu, kodēšanu, teksta izpratni u.c. Visi SuperBPE modeļi pārspēj BPE bāzes līniju, un spēcīgākais 8B modelis sasniedz vidējo uzlabojumu par 4,0%, pārspējot bāzes līniju 25 no 30 atsevišķiem uzdevumiem. Uzdevumos ar vairākām izvēlēm tiek novērots ievērojams uzlabojums – +9,7%. Vienīgais statistiski nozīmīgs zemāks rezultāts tiek novērots LAMBADA uzdevumā, kur SuperBPE galīgā precizitāte samazinās no 75,8% līdz 70,6%. Turklāt visi saprātīgie pārejas punkti nodrošina labākus rezultātus nekā bāzes līnija. Efektīvākais kodēšanas pārejas punkts nodrošina +3,1% veiktspējas uzlabojumu, vienlaikus samazinot secināšanas skaitļošanu par 35%.
Secinājumi un nākotnes iespējas
Pētnieki ir ieviesuši SuperBPE – efektīvāku tokenizācijas pieeju, kas izstrādāta, uzlabojot standarta BPE algoritmu, lai iekļautu supervārdu tokenus. Lai gan tokenizācija kalpo kā pamata saskarne starp valodu modeļiem un tekstu, tokenizācijas algoritmi ir palikuši relatīvi nemainīgi. SuperBPE apstrīd šo status quo, atzīstot, ka tokeni var sniegties ārpus tradicionālajām apakšvārdu robežām, iekļaujot daudzveidīgus izteicienus. SuperBPE tokenizatori ļauj valodu modeļiem sasniegt augstāku veiktspēju daudzos lejupstraumes uzdevumos, vienlaikus samazinot secināšanas skaitļošanas izmaksas. Šīs priekšrocības neprasa nekādas modifikācijas pamata modeļa arhitektūrā, padarot SuperBPE nevainojamu aizstājēju tradicionālajai BPE mūsdienu valodu modeļu izstrādes procesos.
Plašākai informācijai apskatiet pētījuma rakstu un projekta lapu. Visu kredītu par šo pētījumu saņem šī projekta pētnieki. Jūs arī varat sekot mums Twitter un pievienoties mūsu 85k+ ML kopienai Reddit.
https://www.marktechpost.com/