Jaunrades laikrindu AI: Kā Salesforce izmanto sintētiskos datus, lai uzlabotu pamatmodeļus
Laikrindu analīze ar sintētisko datu palīdzību
Laikrindu analīze saskaras ar būtiskām problēmām datu pieejamības, kvalitātes un daudzveidības jomā, kas ir kritiskie faktori efektīvu pamatmodeļu izstrādē. Reālo pasaules datu kopas bieži vien ir nepietiekamas regulatīvo ierobežojumu, iebūvētu neobjektivitāšu, zemas kvalitātes un ierobežotu tekstuālu anotāciju dēļ, padarot grūtu izveidot robustus un vispārināmus Laikrindu Pamatmodeļus (TSFM) un Lielo Valodu Modeļu (LLM) balstītus Laikrindu Modeļus (TSLLM). Šis trūkums ietekmē tādus uzdevumus kā prognozēšana, klasifikācija, anomāliju noteikšana, spriešana un aprakstu veidošana, ierobežojot mākslīgā intelekta jaunākos sasniegumus.
Salesforce AI Research ir risinājis šīs problēmas, piedāvājot visaptverošu pieeju sintētisko datu izmantošanai, lai uzlabotu TSFM un TSLLM modeļus. Viņu nesenais pētījums “Laikrindu analīzes stiprināšana ar sintētiskiem datiem” ievieš jaunu stratēģiju, izmantojot sintētiskos datus modeļu apmācības, novērtēšanas un precizēšanas uzlabošanai, koncentrējoties uz neobjektivitāšu mazināšanu, datu kopu daudzveidības palielināšanu un kontekstuālās informācijas bagātināšanu. Izstrādājot inovatīvus datu ģenerēšanas rīkus un iekļaujot sintētiskās datu kopas, Salesforce AI mērķis ir uzlabot TSFM un TSLLM praktisko pielietojumu, īpaši jutīgās jomās, piemēram, veselības aprūpē un finansēs, kur datu koplietošana ir stingri regulēta.
Tehniskie risinājumi un sintētisko datu ģenerēšana
Salesforce AI Research metodoloģijas pamatā ir dažādas sintētisko datu ģenerēšanas pieejas, katra no tām risinot konkrētus laikrindu dinamikas aspektus, piemēram, tendences, sezonālās shēmas un trokšņa raksturlielumus. Piemēram, ForecastPFN metode apvieno lineāri-eksponenciālas tendences un periodiskas sezonalitātes ar Veibula sadalījuma troksni, efektīvi simulējot reālistiskus un daudzveidīgus scenārijus. Līdzīgi TimesFM integrē daļēji lineāras tendences un autoregresīvo kustīgo vidējo (ARMA) modeļus ar periodiskām shēmām. Vēl viena inovatīva tehnika, KernelSynth no Chronos, izmanto Gausa procesus (GP) kombinācijā ar lineārām, periodiskām un radiālās bāzes funkciju (RBF) kodoliem, lai radītu bagātīgas sintētiskās datu kopas. Šīs metodes ļauj kontrolēti, bet daudzveidīgi veidot sintētiskos datus, kas palīdz aptvert plašu reālistisku laikrindu uzvedību spektru.
Sintētisko datu priekšrocības modeļu attīstībā
Salesforce komandas atklājumi uzsver ievērojamas priekšrocības, kas iegūtas no sintētisko datu izmantošanas vairākos modeļu izstrādes posmos. Priekšapmācībā sintētiskās datu kopas sniedza ievērojamus veiktspējas uzlabojumus, kā parādīts ForecastPFN, Mamba4Cast un TimesFM modeļos. Piemēram, ForecastPFN, kas priekšapmācīts tikai uz sintētiskiem datiem, uzrādīja būtiskus uzlabojumus nulles izlases prognozēšanas scenārijos, savukārt Chronos sasniedza optimālus rezultātus, sajaukot apmēram 10% sintētisko datu ar reālo pasaules datu kopām. Turklāt sintētiskie dati spēlēja nozīmīgu lomu arī novērtēšanā, ļaujot pētniekiem precīzi novērtēt modeļu spējas, izprast iekšējos attēlojumus un identificēt iemācīto shēmu trūkumus.
Pašreizējie ierobežojumi un nākotnes iespējas
Pētījumā tiek apskatīti arī pašreizējie sintētisko datu izmantošanas ierobežojumi, identificējot jomas turpmākiem uzlabojumiem. Viens no kritiskajiem trūkumiem ir sistemātiskas integrācijas metožu trūkums sintētiskām datu kopām, liekot domāt par strukturētu rāmju izveidi, lai stratēģiski identificētu un aizpildītu trūkstošos reālo pasaules datu rakstus. Vēl viens ierobežojums ir statistisko metožu dominēšana, mudinot izpētīt datu virzītas ģeneratīvas metodes, piemēram, difūzijas modeļus, lai uzlabotu reālismu. Salesforce pētnieki arī uzsver neizmantoto potenciālu, izmantojot sintētiskos datus precizēšanas fāzēs, lai efektīvāk un adaptīvāk risinātu konkrētu jomu trūkumus vai modeļu vājās vietas.
Noslēgumā Salesforce AI Research pierāda, ka sintētiskie dati ir spēcīgs rīks, lai pārvarēt datu radītās problēmas laikrindu analīzē. Sistemātiski integrējot augstas kvalitātes sintētiskās datu kopas dažādos modeļu izstrādes posmos, TSFM un TSLLM var sasniegt uzlabotu vispārināšanu, samazinātu neobjektivitāti un uzlabotu veiktspēju dažādos analītiskos uzdevumos. Neraugoties uz esošajiem ierobežojumiem, piemēram, reālisma nodrošināšanu un saskaņošanu, sintētisko datu ģenerēšanas metodoloģiju aktīvā attīstība un izpēte rāda ievērojamu potenciālu. Turpmākiem pētījumiem, kā norāda Salesforce, vajadzētu koncentrēties uz datu reālisma uzlabošanu, sistemātisku datu trūkumu risināšanu un iteratīvu, cilvēka iesaistītu sintētisko datu ģenerēšanas procesu izmantošanu. Šie uzlabojumi var ievērojami paplašināt laikrindu modeļu pielietojamību un uzticamību, liekot pamatus turpmākām mākslīgā intelekta inovācijām.
Aplūkojiet pētījumu. Visu atzinību par šo pētījumu izpildītājiem. Pievienojieties mums X un neaizmirstiet pievienoties mūsu 85k+ ML kopienai Reddit.
https://www.marktechpost.com/