Uzlabota medicīniskā spriešana ar verificējamo atlīdzību mācīšanos (RLVR): Ieskats MED-RLVR pētījumā
Jaunākie pētījumi medicīnas spriešanas uzlabošanā
Pastiprinātās mācīšanās no pārbaudāmiem atlīdzinājumiem (RLVR) ir nesen izveidojusies metode, kas uzlabo valodu modeļu spriešanas spējas bez tiešas uzraudzības. Šī pieeja ir parādījusi ievērojamus panākumus matemātikā un programmēšanā, kur spriešana dabiski saskan ar strukturētu problēmu risināšanu. Lai gan pētījumi ir parādījuši, ka RLVR vien var novest pie pašattīstītas spriešanas, pētījumi līdz šim ir aprobežojušies galvenokārt ar šīm tehniskajām jomām.
RLVR paplašināšana uz citām jomām joprojām ir izaicinājums, it īpaši tādos uzdevumos kā daudzizvēles jautājumu atbildēšana (MCQA), kas nodrošina strukturētas, pārbaudāmas atbildes dažādās nozarēs, tostarp medicīnā. Tomēr atšķirībā no matemātikas un programmēšanas, kur ir sarežģīta spriešana ar atvērtu atbilžu telpu, MCQA uzdevumos parasti ir iepriekš definētas atbilžu iespējas, tāpēc nav skaidrs, vai RLVR priekšrocības efektīvi darbojas arī šeit.
Microsoft Research pētnieki ir izpētījuši, vai medicīniskā spriešana var attīstīties, izmantojot RLVR. Viņi ir izveidojuši MED-RLVR, izmantojot medicīniskos MCQA datus, lai novērtētu RLVR efektivitāti medicīnas jomā. Rezultāti parāda, ka RLVR darbojas ne tikai matemātikā un programmēšanā, bet sasniedz līdzīgus rezultātus kā ar uzraudzītu precizēšanu (SFT) standarta uzdevumos, bet ievērojami uzlabo vispārināšanu ārpus sākotnējiem datiem – par astoņiem procentpunktiem.
RLVR izmanto Proximālās politikas optimizāciju (PPO), lai apmācītu modeli, izmantojot noteikumu balstītu atlīdzības funkciju, kas vērtē atbilžu pareizību un formāta atbilstību. Bez papildu uzraudzības modelis parāda spontānu medicīnisko spriešanu, līdzīgi kā matemātiskajā spriešanā iepriekšējos RLVR pētījumos.
Pētījumā izmantots MedQA-USMLE datu kopa, kas ietver daudzizvēles medicīnas eksāmena jautājumus. Atšķirībā no standarta četru atbilžu variantiem, šajā datu kopā ir vairāk atbilžu iespēju, kas padara uzdevumu sarežģītāku. Analīze atklāj sešas spriešanas attīstības fāzes: formāta kļūdas, pārāk detalizētas izvades, atlīdzību manipulācija un atjaunota spriešana. Tomēr, atšķirībā no matemātikas vai programmēšanas, netika novērota pašpārbaudes uzvedība.
Noslēgumā jāatzīmē, ka MCQA nepilnībā atspoguļo reālās medicīniskās prakses sarežģītību, piemēram, atvērta teksta atbilžu sniegšanu vai diagnostikas dialogus. Turklāt unimodālā pieeja ierobežo modeļa spēju integrēt daudzveidīgus datus, kas ir būtiski diagnostikai. Nākotnes pētījumiem būtu jāpievērš uzmanība šiem ierobežojumiem.
Plašākai informāciai skatiet pētījumu. Visu atzinību par šo pētījumu izpildījuši tā autori. Sekojiet mums X un pievienojieties mūsu 85k+ ML kopienai Reddit.
https://www.marktechpost.com/