Skip to main content

Kolomogorova tests: Kompresijas kā inteliģences mērītājs koda ģenerējošo valodu modeļu novērtēšanai

Pētījums par datu saspiešanu, izmantojot programmu ģenerējošos modeļus

Saspiešana ir viens no skaitļošanas intelekta pamatprincipiem, kas balstās uz Kolmogorova kompleksitātes teoriju. Šī teorija definē minimālo programmu, kas nepieciešama, lai reproducētu doto datu secību. Atšķirībā no tradicionālajām saspiešanas metodēm, kas meklē atkārtojumus un lieko informāciju, Kolmogorova pieeja interpretē saspiešanu kā strukturētu modeļu atklāšanu, izmantojot programmatūras reprezentāciju. Lai gan teorija sola optimālu saspiešanu, tās neaprēķināmība rada būtiskus šķēršļus. Tomēr lielo valodu modeļu parādīšanās, kas spēj ģenerēt kodu, atver jaunas iespējas pārbaudīt, cik tuvu mūsdienu sistēmas var tuvoties šim teorētiskajam ideālam.

Galvenā problēma saistīta ar pašreizējo rīku ierobežojumiem, saspiežot datu secības, izmantojot kodolu un izpildāmu kodu. Bieži vien modeļi vienkārši atkārto ievades datus, nevis ģenerē programmas, kas tos reproducētu, kas norāda uz trūkstošo modeļu izpratni par patiesajiem modeļiem. Tas kļūst īpaši redzams, strādājot ar reāliem audio, teksta vai DNS sekvencēm, kur nepieciešams atklāt sarežģītas loģiskas struktūras, lai sasniegtu efektīvu saspiešanu. Izaicinājums ir nodrošināt, ka modelis ne tikai reproducē secību, bet arī izmanto minimālu un racionālu instrukciju kopu. Turklāt, lai gan sintētiskie apmācības dati ir noderīgi kontrolētai izvērtēšanai, tie bieži nespēj nodrošināt stabilu vispārināšanu uz dabas datiem, kas ir būtiski praktiskiem pielietojumiem.

Pastāv vairāki saspiešanas rīki – sākot ar tradicionālajiem algoritmiem, piemēram, GZIP, līdz jaunākām neironu tīklu sistēmām. GZIP joprojām ir spēcīgs salīdzinājuma rīks, īpaši garām vai atkārtotām secībām, pateicoties tā efektīvajai statistikas likumsakarību kodēšanai. Nesen valodu modeļu pieejas ir integrētas ar aritmētisko kodēšanu, izmantojot prognozēšanas varbūtības, lai saspiestu ievades datus. Tomēr šīs metodes parasti prasa piekļuvi visiem modeļa parametriem atkodēšanas laikā, kas ierobežo to efektivitāti un pielietojamību. Tādi modeļi kā GPT-4 un LLaMA ir tikuši izvērtēti, lai ģenerētu Python programmas, kas reproducē ievades secības, taču bieži vien tās rada pārāk garu, neprecīzu kodu, īpaši saskaroties ar nesastaptām vai sarežģītām secībām.

Meta AI un Telavivas Universitātes pētnieki ieviesa Kolmogorova testu (KT), kas paredzēts, lai novērtētu kodu ģenerējošo valodu modeļu spējas. Šis tests vērtē modeļa spēju ģenerēt īsāko programmu, kas izvada doto ievades secību. Atšķirībā no tipiskiem testiem, KT uzsver loģisko kompozīciju un programmu ģenerēšanu, nevis prognozējošo teksta modelēšanu. Testā izmantotās secības ietver dabiskus datus no audio (LibriSpeech), teksta (Wikipedia enwik9) un DNS (GRCh38), kā arī sintētiskas secības, kas ģenerētas, izmantojot speciāli izstrādātu domēna specifisku valodu (DSL). Šī DSL atbalsta strukturētu secību veidošanu, apvienojot tādas darbības kā diapazona izveide, secību modificēšana, sapludināšana un filtrēšana.

Pētnieki izstrādāja automatizētu sistēmu, kas, izmantojot DSL, ģenerēja miljoniem sintētisku programmu un secību pārus. Šīs programmas tika izmantotas, lai apmācītu un izvērtētu modeļus, tostarp lielus iepriekš apmācītus modeļus, piemēram, SEQCODER. Lai novērtētu veiktspēju, tika izmantoti rādītāji, piemēram, precizitāte – vai ģenerētā programma reproducē secību – un precizitātes koeficients – cik īsa ir pareizā programma salīdzinājumā ar GZIP saspiešanu. Testā tika saspiestas dažāda garuma secības, kur sintētiskās secības vidēji bija 76 baiti, bet reālās – ne vairāk kā 128 baiti.

Rezultāti parādīja, ka pat visspēcīgākie modeļi saskārās ar grūtībām. GPT-4 sasniedza 69,5% precizitāti augstas kvalitātes audio datiem, bet kritās līdz 36,4% 8-bitu audio un 50,3% DNS datiem. LLaMA-3.1-405B veiktspēja bija vēl sliktāka – tikai 3,9% precizitāte audio un 24,8% DNS datiem. Sintētiskajos datos SEQCODER-8B sasniedza 92,5% precizitāti ar precizitātes koeficientu 0,56, pārspējot tradicionālos rīkus, piemēram, GZIP. Tomēr tā veiktspēja reālos datos bija gandrīz nulle. Šī atšķirība ilustrē grūtības pārnest panākumus no sintētiskajiem testiem uz daudzveidīgākiem un trokšņainākiem reālās pasaules datiem, uzsverot pašreizējo apmācības režīmu ierobežojumus un nepieciešamību pēc jaunām stratēģijām.

Kopumā šis pētījums skaidri norāda uz saspiešanas sarežģītību, izmantojot koda ģenerēšanu. KT tests nodrošina stingru un daudzveidīgu modeļu spēju pārbaudi, atklājot lielo plaisu starp sintētiskajām mācību vidēm un reālajiem pielietojumiem. Ieviestā metodoloģija un tests nosaka augstu lati nākotnes modeļiem, kuri vēlas apvienot spriešanas spējas ar saspiešanu, taču joprojām nepieciešama būtiska inovācija, lai atrisinātu šo izaicinājumu.


Plašākai informācijai skatiet pētījuma publikāciju. Visu atzinību par šo pētījumu izpildi saņem tā autori. Sekojiet mums arī X (Twitter) un pievienojieties mūsu 85k+ lielajai mašīnmācīšanās kopienai Reddit.

https://www.marktechpost.com/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *