Skip to main content

Google AI izdod TxGemma: 2B, 9B un 27B lielo valodu modeli sēriju zāļu izstrādei ar Transformers pielāgošanu

Google AI izstrādā jaunu lielo valodu modeli terapijas un zāļu izstrādes uzlabošanai

Terapiju un zāļu izstrāde joprojām ir sarežģīts un dārgs process, kam raksturīgas augstas neveiksmes likmes un ilgi izstrādes termiņi. Tradicionālā zāļu izstrādes metode prasa plašus eksperimentālos pārbaudījumus, sākot no sākotnējā mērķa noteikšanas līdz klīniskajiem izmēģinājumiem, patērējot ievērojamus resursus un laiku. Skaitļošanas metodes, it īpaši mašīnmācīšanās un prognozēšanas modeļi, ir kļuvuši par svarīgiem rīkiem šī procesa optimizēšanai. Tomēr esošie skaitļošanas modeļi parasti ir pārāk specializēti, kas ierobežo to efektivitāti dažādu terapētisku uzdevumu risināšanā un nodrošina tikai ierobežotas interaktīvās spējas, kas nepieciešamas zinātniskai analīzei.

Lai risinātu šīs problēmas, Google AI ir izstrādājis TxGemma – lielo valodu modeļu (LLM) kopumu, kas speciāli izstrādāts dažādu terapētisku uzdevumu atbalstam zāļu izstrādē. TxGemma atšķiras ar to, ka tā apvieno dažādus datu kopumus, tostarp mazās molekulas, olbaltumvielas, nukleīnskābes, slimības un šūnu līnijas, ļaujot tai darboties vairākos terapijas izstrādes posmos. TxGemma modeļi ir pieejami ar 2 miljardiem (2B), 9 miljardiem (9B) un 27 miljardiem (27B) parametru un ir uzlaboti no Gemma-2 arhitektūras, izmantojot visaptverošus terapētiskos datus. Papildus TxGemma iekļauj arī TxGemma-Chat – interaktīvu sarunu modeļa variantu, kas ļauj zinātniekiem diskutēt un analizēt prognozēšanas rezultātus, veicinot modeļa izmantošanas pārredzamību.

No tehniskā viedokļa TxGemma izmanto plašo Therapeutic Data Commons (TDC) datu kopu, kas satur vairāk nekā 15 miljonus datu punktu no 66 terapijai nozīmīgiem datu kopumiem. TxGemma-Predict, modeļa prognozēšanas variants, uzrāda ievērojamus rezultātus šajos datos, pārspējot vai pielīdzinoties esošajiem vispārīgajiem un specializētajiem modeļiem. Būtiski, ka TxGemma optimizē prognozēšanas precizitāti, izmantojot ievērojami mazāk apmācības datu, kas ir būtisks priekšrocība jomās, kur dati ir ierobežoti. Turklāt Agentic-Tx, kas darbojas uz Gemini 2.0 bāzes, integrē TxGemma-Predict prognozes un TxGemma-Chat diskusijas ar ārējiem specializētiem rīkiem, lai risinātu sarežģītus terapētiskus jautājumus.

TxGemma efektivitāte ir apstiprināta empīriski. Pārbaudot 66 TDC uzdevumus, TxGemma-Predict sasniedza rezultātus, kas ir salīdzināmi vai pārspēj esošos vadošos modeļus. Īpaši izceļas tās veiktspēja ķīmisko savienojumu toksicitātes un blakusparādību prognozēšanā klīniskajos izmēģinājumos. TxGemma-Chat sarunu iespējas nodrošina padziļinātu zinātnisko analīzi, bet Agentic-Tx uzrādīja 5,6% un 17,9% precizitātes uzlabojumus attiecīgi ChemBench un Humanity’s Last Exam testos.

TxGemma praktiskā nozīme ir īpaši redzama blakusparādību prognozēšanā klīniskajos izmēģinājumos. TxGemma-27B-Predict uzrādīja augstu precizitāti, izmantojot daudz mazāk apmācības datu nekā tradicionālie modeļi. Turklāt TxGemma atbalsta reāllaika pielietojumus, piemēram, virtuālo izmēģinājumu veikšanu, un lielākais modelis (27B parametri) spēj apstrādāt lielus datu apjomus, izmantojot mērogojamu infrastruktūru.

Kopumā Google AI TxGemma ieviešana ir nozīmīgs solis terapētiskajā pētniecībā, apvienojot augstu prognozēšanas precizitāti, interaktīvu spēju un datu efektivitāti. TxGemma publiskā pieejamība ļauj pētniekiem to pielāgot dažādiem datu kopumiem, veicinot reproduktivitāti un plašāku pielietojumu. Ar TxGemma-Chat un Agentic-Tx iespējām pētnieki var iegūt jaunas iespējas terapētiskās izstrādes lēmumu pieņemšanā.


Plašākai informācijai skatiet pētījuma publikāciju un modeļus Hugging Face platformā. Visu atzinību par šo pētījumu pelna tā autori. Sekojiet mums X (Twitter) un pievienojieties mūsu 85k+ lielajai mašīnmācīšanās kopienai Reddit.

https://www.marktechpost.com/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *