UI-R1 Framework: Padziļināta Noteikumu Balstītā Pastiprinātā Mācīšanās GUI Darbību Prognozēšanai
Pētījums par GUI darbību prognozēšanu ar pastiprināšanas mācīšanos
Vērstā smalkregulēšana (SFT) ir standarta apmācības paradigma lielo valodu modeļiem (LLM) un grafiskās lietotāja saskarnes (GUI) aģentiem. Tomēr SFT prasa augstas kvalitātes marķētus datu kopas, kas noved pie ilgākiem apmācības periodiem un augstām skaitļošanas izmaksām. Šī atkarība no plašiem datiem rada problēmas AI attīstības darbplūsmās. Turklāt esošie VLM balstītie GUI aģenti, kas apmācīti ar SFT, uzrāda veiktspējas trūkumus, saskaroties ar ārpus domēna scenārijiem, krasi ierobežojot to praktisko lietojamību dažādās reālās lietojumprogrammās. Noteikumu balstīta pastiprināšanas mācīšanās (RL) vai pastiprināšanas smalkregulēšana (RFT) ir daudzsološa alternatīva, kas prasa tikai desmitiem līdz tūkstošiem paraugu, nevis masīvas datu kopas.
Ir izstrādātas dažādas pieejas, lai uzlabotu GUI aģentus un optimizētu to apmācību. AppAgent un Mobile-Agent sērijas integrē komerciālus modeļus, piemēram, GPT, plānošanas un prognozēšanas uzdevumiem, taču tās lielā mērā ir atkarīgas no uzvednes inženierijas un daudzaģentu sadarbības, prasot rūpīgu manuālu dizainu optimālai veiktspējai. Tāpēc pētnieki ir smalkregulējuši mazākus atvērtā koda MLLM modeļus uz uzdevumiem specifiskām GUI datu kopām, lai izveidotu specializētus aģentus. Noteikumu balstīta RL ir kļuvusi par efektīvu alternatīvu tradicionālajām apmācības paradigmām, izmantojot iepriekš definētas noteikumu balstītas atlīdzības funkcijas, kas koncentrējas uz gala rezultātiem, vienlaikus ļaujot modeļiem organiskāk apgūt spriešanas procesus. Šī tehnika ir efektīva pat uz mazākiem modeļiem un ir paplašināta uz multimodāliem modeļiem, izmantojot uzdevumiem specifiskas atlīdzības vizuāliem uzdevumiem.
Pētnieki no vivo AI Lab un MMLab @ CUHK ir ierosinājuši UI-R1, lai uzlabotu multimodālu LLM spriešanas spējas GUI darbību prognozēšanas uzdevumiem, izmantojot DeepSeek R1 stilā RL. Pētnieki prezentē pirmo pētījumu par to, kā noteikumu balstīta RL var uzlabot MLLM spriešanu grafiskās lietotāja saskarnes darbību prognozēšanai. Ir izveidota maza, bet augstas kvalitātes datu kopa ar 136 izaicinošiem uzdevumiem piecos biežāk izmantotos mobilo ierīču darbību veidos. Modeļa optimizācija tiek iespējota, izmantojot politikas balstītus algoritmus, ieviešot vienotu noteikumu balstītu darbību atlīdzību, īpaši Group Relative Policy Optimization (GRPO). Šī pieeja ir parādījusi lielu efektivitāti gan domēna iekšienē, gan ārpus tā, ar ievērojamu uzlabojumu darbību veidu precizitātē un pamatojuma precizitātē, salīdzinot ar bāzes Qwen2.5-VL-3B modeli.
Sistēmas pamatojuma spējas tiek vērtētas, izmantojot divus specializētus kritērijus: ScreenSpot, kas vērtē GUI pamatojumu mobīlajās, darbvirsmas un tīmekļa platformās, un ScreenSpot-Pro, kas koncentrējas uz augstas izšķirtspējas profesionālām vidēm ar ekspertu anotētiem uzdevumiem, aptverot 23 lietojumprogrammas, piecas nozares un trīs operētājsistēmas. Turklāt modelis tiek pārbaudīts vienas darbības prognozēšanai, balstoties uz zemā līmeņa instrukcijām, izmantojot atlasītu ANDROIDCONTROL apakškopu, kas ievieš plašāku darbību veidu klāstu nekā ScreenSpot kritērijs. Pētījuma metodoloģija arī izpilda kritiskas attiecības starp apmācības datu apjomu un modeļa veiktspēju, salīdzinot nejaušu izlasi un grūtību balstītu atlasi apmācības datu izvēlē.
UI-R1 uzlabo 3B modeļa GUI pamatojuma spējas par 20% uz ScreenSpot un par 6% uz ScreenSpot-Pro, pārspējot lielāko daļu 7B modeļu abos kritērijos. UI-R1 sasniedz veiktspēju, kas salīdzināma ar modernākajiem 7B modeļiem, piemēram, AGUVIS un OS-Atlas, neskatoties uz to, ka šie modeļi ir apmācīti, izmantojot SFT uz lielākām marķētām datu kopām. Tieši salīdzinot ar Qwen2.5-VL (ZS) modeli, UI-R1 uzrāda 15% uzlabojumu darbību veidu prognozēšanas precizitātē un 20% uzlabojumu klikšķa elementa pamatojuma precizitātē, izmantojot tikai 136 apmācības datu punktus. Pētījums arī atklāj, ka, lai gan modeļa veiktspēja uzlabojas, palielinot apmācības datu apjomu, šīs attiecības pakāpeniski piesātinās, un grūtību balstītā atlases metode pastāvīgi pārspēj nejaušo atlasi.
Noslēgumā pētnieki ieviesa UI-R1 sistēmu, kas veiksmīgi paplašina noteikumu balstītu RL uz GUI darbību prognozēšanas uzdevumiem, nodrošinot mērogojamu un efektīvu alternatīvu tradicionālajai SFT. Tā izmanto jaunu atlīdzības funkciju, kas vienlaikus vērtē gan darbības veidu, gan argumentus, efektīvi samazinot uzdevuma sarežģītību, vienlaikus uzlabojot mācīšanās efektivitāti. Neskatoties uz to, ka tiek izmantoti tikai 130+ apmācības paraugi no mobilo ierīču domēna, UI-R1 sasniedz ievērojamu veiktspēju, uzrādot spēcīgas vispārināšanas spējas, to lietojot ārpus domēna datu kopām darbvirsmas un tīmekļa platformās. UI-R1 izcilā pielāgojamība, datu efektivitāte un efektivitāte specializētu uzdevumu risināšanā noslēdz daudzsološu nākotnes virzienu daudzveidīgu GUI aģentu izstrādē.
Plašākai informācijai apskatiet pētījumu. Visu atzinību par šo pētījumu saņem šī projekta pētnieki. Tāpat esiet brīvi sekot mums X un neaizmirstiet pievienoties mūsu 85k+ ML kopienai Reddit.
https://www.marktechpost.com/