Meta AI Pētnieki Ievieš SWEET-RL un CollaborativeAgentBench: Soli pa Solim Pastiprinātās Mācīšanās Rāmis, Lai Apmācītu Daudzapgriezienu Valodu Aģentus Reālām Cilvēku-AI Sadarbības Uzdevumiem
Jauns pētījums par AI aģentu apmācību
Lielo valodu modeļu (LLM) attīstība strauji virzās uz autonomu aģentu izveidi, kas spēj veikt sarežģītus uzdevumus, prasot spriest, pieņemt lēmumus un pielāgoties. Šie aģenti tiek izmantoti tīmekļa navigācijā, personiskajā palīdzībā un programmatūras izstrādē. Lai efektīvi darbotos reālajā pasaulē, tiem jāapstrādā daudzpakāpju mijiedarbības, kas ietver vairākus soļus vai lēmumu punktus. Tas rada nepieciešamību pēc apmācības metodēm, kas koncentrējas ne tikai uz atbilžu ģenerēšanu, bet uz visu mijiedarbību trajektorijas optimizēšanu. Kā vienu no daudzsološākajām pieejām šādu aģentu apmācībai ir izvirzījies pastiprināšanas mācīšanās (RL), kas uzlabo lēmumu pieņemšanu, balstoties uz ilgtermiņa atlīdzībām.
Tomēr, neskatoties uz potenciālu, LLM balstītie aģenti joprojām cieš no grūtībām daudzpakāpju lēmumu pieņemšanā. Galvenais izaicinājums ir pareizi novērtēt darbības, kas veiktas agrīnās mijiedarbības stadijās un ietekmē turpmākos rezultātus. Tradicionālās apmācības metodes balstās uz nākamās tokena prognozēšanu vai augstas varbūtības darbību imitēšanu, kas neņem vērā ilgtermiņa atkarības vai kumulatīvos mērķus. Tāpēc šīs metodes nespēj efektīvi risināt ilgtermiņa uzdevumus, īpaši sadarbības scenārijos, kur ir kritiski saprast cilvēka nodomu un spriest pāri vairākiem soļiem.
Reinforcement learning iespējas un ierobežojumi
Ir pārbaudītas dažādas RL metodes LLM uzlabošanai, īpaši vienpakāpes cilvēku atsauksmju scenārijos. Tādi rīki kā PPO, RAFT un DPO ir izpētīti, bet tiem ir būtiski ierobežojumi, piemērojot secīgām mijiedarbībām. Šīs metodes bieži neveicas efektīvā kredīta piešķiršanā starp dažādām mijiedarbības fāzēm, padarot tās mazāk efektīvas daudzpakāpju uzdevumos. Vērtību balstītās mācīšanās pieejas ir alternatīva, taču to nepieciešamība pēc pielāgotiem modeļiem un lieliem apjomiem uzdevumiem specifisku datu ierobežo to vispārīgās spējas.
SWEET-RL un ColBench ieviešana
FAIR no Meta un UC Berkeley pētnieki ir ierosinājuši jaunu RL metodi SWEET-RL (Step-WisE Evaluation from Training-time Information). Viņi arī izveidoja CollaborativeAgentBench (ColBench) salīdzināšanas rīku. Šis rīks ir centrāls pētījumam, nodrošinot vairāk nekā 10 000 apmācības uzdevumu un vairāk nekā 1000 testa gadījumu divos apgabalos: backend programmēšanā un frontend dizainā. ColBench imitē reālu sadarbību starp AI aģentu un cilvēka partneri, kur aģentiem jājautā, jāprecizē izpratne un jānodrošina iteratīvi risinājumi.
Programmēšanas uzdevumos aģentiem ir jāraksta Python funkcijas, lūdzot precizējumus trūkstošām specifikācijām. Frontend uzdevumos tiem ir jāģenerē HTML kods, kas atbilst vizuālajam mērķim, balstoties uz atgriezenisko saiti. Katrs uzdevums ir veidots, lai pārbaudītu aģenta spējas un atdarinātu reālus ierobežojumus, piemēram, ierobežotu mijiedarbību skaitu (maksimums 10 apgriezieni sesijā).
SWEET-RL darbības princips
SWEET-RL balstās uz asimetrisku aktiera-kritiķa struktūru. Kritiķim apmācības laikā ir pieejama papildu informācija (piemēram, pareizais risinājums), kas nav redzama aktierim. Tas ļauj kritiķim novērtēt katru aģenta lēmumu ar daudz augstāku precizitāti. SWEET-RL tieši modelē priekšrocību funkciju katrā solī, izmantojot Bradley-Terry optimizācijas mērķi. Šī funkcija nosaka, cik daudz labāka vai sliktāka ir konkrēta darbība salīdzinājumā ar alternatīvām, palīdzot aģentam apgūt precīzu uzvedību.
Rezultāti un secinājumi
SWEET-RL sasniedza 6% absolūtu uzlabojumu salīdzinājumā ar citām daudzpakāpju RL metodēm. Backend programmēšanas uzdevumos tas veiksmīgi nokārtoja 48.0% testu un sasniedza 34.4% veiksmes rādītāju, salīdzinot ar 28.2% Multi-Turn DPO un 22.4% nulles metodes rādītājiem. Frontend dizaina uzdevumos tas sasniedza 76.9% kosinusa līdzības punktu un 40.4% uzvaras rādītāju, uzlabojoties no 38.6% ar DPO un 33.8% ar tradicionālo apmācību.
Pētījums parāda, ka efektīva interaktīvu aģentu apmācība ir atkarīga no precīzas, soli pa solim atgriezeniskās saites. SWEET-RL ievērojami uzlabo kredīta piešķiršanu, izmantojot apmācības laika informāciju un arhitektūrai saskaņotu optimizācijas pieeju. Tas uzlabo vispārīgās spējas, samazina apmācības novirzi un parāda labu mērogojamību, sasniedzot labākus rezultātus ar vairāk datiem.
Galvenie secinājumi
- SWEET-RL uzlaboja backend programmēšanas veiksmes rādītājus no 28.2% (DPO) uz 34.4% un frontend uzvaras rādītājus no 38.6% uz 40.4%.
- Tas ļāva Llama-3.1-8B sasniegt GPT-4o veiktspēju, samazinot atkarību no komerciāliem modeļiem.
- Kritiķis izmanto apmācības laika informāciju, kas nav pieejama aktierim, radot asimetrisku apmācības iestatījumu.
- SWEET-RL tieši mācās soli-pa-solim priekšrocību funkciju, uzlabojot kredīta piešķiršanu bez starpfunkcijas nepieciešamības.
Lai uzzinātu vairāk, apmeklējiet pētījuma publikāciju, GitHub lapu un datu kopu. Visu atzinību par šo pētījumu saņem tā autori.
https://www.marktechpost.com/