PLAN-AND-ACT: Modulāra sistēma ilgtermiņa plānošanai tīmekļa valodu agentiem
Modulāra sistēma ilgtermiņa plānošanai digitālajiem aģentiem
Lielo valodu modeļu palīdzība rada jaunu digitālo aģentu vilni, kas spēj veikt sarežģītus uzdevumus tīmeklī. Šiem aģentiem ir jāprot interpretēt lietotāja norādījumus, orientēties saskarnēs un veikt kompleksas darbības pastāvīgi mainīgos vidēs. Galvenās grūtības rodas nevis valodas izpratnē, bet gan darbību precīzā pārveidošanā, adaptējoties dinamiskām situācijām. Lai veiksmīgi izpildītu ilgtermiņa uzdevumus, piemēram, ceļojumu rezervēšanu vai datu meklēšanu tīmeklī, ir svarīgi spēt pārvaldīt darbību secību, kas mainās ar katru soli. Neskatoties uz lielo progresu valodas modeļu jomā, aģentu izveide, kas spēj efektīvi plānot un pielāgoties, joprojām ir neatrisināta problēma.
Viena no galvenajām šādu aģentu izstrādes problēmām ir mērķu pārvēršana konkrētās darbībās. Piemēram, ja lietotājs pieprasa “seko šī GitHub projekta aktīvākajam līdzstrādniekam”, aģentam ir jāizprot komanda, jānodrošina navigācija uz atbilstošo sadaļu, jāidentificē persona un jāveic sekošanas darbība. Uzdevums kļūst vēl sarežģītāks dinamiskās vidēs, kur saturs var mainīties starp izpildes reizēm. Bez skaidras plānošanas un atjaunināšanas stratēģijas aģenti var pieņemt nekonsekventus lēmumus vai pilnībā ciest neveiksmi. Papildu grūtības rada arī mācību datu trūkums, kas parādītu, kā pareizi plānot un izpildīt ilgtermiņa uzdevumus.
Iepriekšējie pētījumi mēģināja risināt šīs problēmas, izmantojot viena aģenta stratēģijas vai arī pielietojot pastiprinātās mācīšanās metodes. Viena aģenta sistēmas, piemēram, ReAct, mēģināja apvienot spriešanu un darbību izpildi, taču bieži vien modeļi pārāk noslogojās, vienlaikus domājot un rīkojoties. Pastiprinātās mācīšanās pieejas rādīja dažus solītus rezultātus, taču tās bija nestabilas un ļoti jutīgas pret vides specifiskām iestatībām. Šo metožu apmācībai nepieciešamie dati prasīja plašu mijiedarbību ar vidēm, padarot procesu laikietilpīgu un grūti mērogojamu. Turklāt šīs metodes bieži vien nevarēja saglabāt veiktspējas konsekvenci, ja uzdevums izpildes laikā mainījās.
Pētnieku komanda no UC Berkeley, Tokijas Universitātes un ICSI ieviesa jaunu PLAN-AND-ACT sistēmu. Pētījumu atbalstīja tādi uzņēmumi kā Apple, Nvidia, Microsoft un Intel. Šī sistēma sadala uzdevumu plānošanu un izpildi divos moduļos: PLANNER un EXECUTOR. PLANNER ir atbildīgs par strukturēta plāna izveidi, pamatojoties uz lietotāja pieprasījumu, savukārt EXECUTOR pārveido katru plāna soli konkrētās darbībās. Šāda pieeja ļauj PLANNER koncentrēties uz stratēģiju, bet EXECUTOR nodrošina darbību precīzu izpildi, uzlabojot abu komponenšu uzticamību. Šis modulārais dizains ir būtiska atšķirība no iepriekšējām pieejām.
PLAN-AND-ACT metodoloģija ir detalizēta un koncentrējas uz mērogojamu apmācību. Tā kā cilvēku anotēto plānošanas datu apjoms ir ierobežots, pētnieki izveidoja sintētisko datu ģenerēšanas procesu. Sākotnēji tika apkopotas darbību trajektorijas no simulētiem aģentiem – klikšķu, ievadu un atbilžu secības. Lielie valodu modeļi analizēja šīs trajektorijas, lai rekonstruētu augsta līmeņa plānus, kas balstīti uz reāliem rezultātiem. Piemēram, plāns varētu paredzēt augstākā līdzstrādnieka identificēšanu, bet tam saistītās darbības varētu ietvert klikšķi uz cilnes “Contributors” un rezultējošā HTML parsēšanu. Pētnieku komanda papildināja datu kopu ar papildu 10 000 sintētiskiem plāniem un pēc tam ģenerēja vēl 5 000 plānus, pamatojoties uz neveiksmju analīzi. Šī sintētiskā apmācības metode ietaupa laiku un rada kvalitatīvus datus, kas atspoguļo reālās izpildes vajadzības.
Testēšanas laikā PLAN-AND-ACT sasniedza 53,94% uzdevumu veiksmīgās izpildes rādītāju WebArena-Lite testā, pārspējot iepriekšējo labāko rezultātu 49,1% no WebRL. Bez plānotāja bāzes izpildītājs sasniedza tikai 9,85% veiksmes rādītāju. Pievienojot neapmācītu plānotāju, veiktspēja pieauga līdz 29,63%, bet, izmantojot 10 000 sintētisko plānu apmācību, rezultāts pieauga līdz 44,24%. Dinamiskās plāna pārskatīšanas ieviešana deva papildu 10,31% veiktspējas pieaugumu. Visos eksperimentos dati parādīja, ka lielākā daļa uzlabojumu radās no PLANNER uzlabošanas, nevis EXECUTOR. Pat ar bāzes EXECUTOR, spēcīga PLANNER klātbūtne būtiski palielināja veiksmes rādītājus, apstiprinot pētnieku hipotēzi, ka plānošanas un izpildes atdalīšana uzlabo uzdevumu izpildes rezultātus.
Noslēgumā šis pētījums parāda, ka, identificējot atšķirības starp mērķu izpratni un vides mijiedarbību, var izveidot efektīvākas mākslīgā intelekta sistēmas. Koncentrējoties uz strukturētu plānošanu un mērogojamu datu ģenerēšanu, pētnieki ir piedāvājuši metodi, kas risina ne tikai konkrētu problēmu, bet arī demonstrē sistēmu, ko var pielietot plašākā lietojumā. PLAN-AND-ACT pierāda, ka efektīva plānošana, ne tikai izpilde, ir būtiska mākslīgā intelekta aģentu veiksmei sarežģītās vidēs.
Plašāka informācija pieejama pētījuma publikācijā. Visu atzinību par šo pētījumu izpildi pelna tā autori. Ja vēlaties uzzināt vairāk, sekojiet mums X un pievienojieties mūsu 85k+ lielajai ML kopienai Reddit.
https://www.marktechpost.com/