Efektīva un ātra subkvadrātiskā arhitektūra bioloģisko sekvenču modelēšanai: Lyra
Efektīva bioloģisko secību modelēšanas arhitektūra
Dziļā mācīšanās arhitektūras, piemēram, konvolūciju neironu tīkli (CNN) un transformatori, ir būtiski uzlabojuši bioloģisko secību modelēšanu, spējot notvert gan lokālās, gan globālās atkarības. Tomēr to pielietojums bioloģijā ir ierobežots augsto skaitļošanas prasību un lielu datu kopu nepieciešamības dēļ. CNN efektīvi atrod lokālos secību modeļus ar subkvadrātisku mērogošanu, savukārt transformatori izmanto pašuzmanību, lai modelētu globālās mijiedarbības, bet prasa kvadrātisku mērogošanu, padarot tos skaitļošanas ziņā dārgu.
Lai risinātu šīs problēmas, epistāze — mutāciju mijiedarbība secībā — nodrošina strukturētu matemātisko ietvaru bioloģisko secību modelēšanai. Multilineāri polinomi var attēlot šīs mijiedarbības, piedāvājot principiālu veidu, kā saprast secību-funkciju attiecības. Valsts telpas modeļi (SSM) dabiski saskan ar šo polinomu struktūru, izmantojot slēptās dimensijas, lai tuvinātu epistātiskos efektus.
Lyra: Efektīva alternatīva
Pētnieki no vairākām institūcijām, tostarp MIT, Harvarda un Carnegie Mellon, ir izstrādājuši Lyra — subkvadrātisku secību modelēšanas arhitektūru, kas paredzēta bioloģiskiem pielietojumiem. Lyra apvieno SSM, lai notvertu globālās atkarības, un projicētas vārtu konvolūcijas lokālās iezīmju iegūšanai, nodrošinot efektīvu O(N log N) mērogošanu.
Lyra sastāv no divām galvenajām sastāvdaļām: projicētajiem vārtu konvolūciju (PGC) blokiem un valsts telpas slāņa ar dziļuma konvolūciju (S4D). Ar aptuveni 55 000 parametriem modelis ietver divus PGC blokus lokālo atkarību noteikšanai un S4D slāni globālajām mijiedarbībām.
Pārākums pār citiem modeļiem
Lyra pārspēj lielos transformatoru pamatā veidotus modeļus vairāk nekā 100 bioloģiskos uzdevumos, tostarp olbaltumvielu fitnesa prognozēšanā, RNS funkciju analīzē un CRISPR vadītāju projektēšanā. Tas darbojas ar ievērojami mazāku parametru skaitu — līdz pat 120 000 reižu mazāk nekā esošajiem modeļiem — un ir 64,18 reizes ātrāks secinājumu veidošanā.
Lyra efektīvi modelē epistātiskās mijiedarbības, sasniedzot vadošos rezultātus dažādās olbaltumvielu un nukleīnskābju modelēšanas jomās, tostarp nekārtības prognozēšanā, mutāciju ietekmes analīzē un RNS atkarīgas RNS polimerāzes noteikšanā.
Lyra ievieš subkvadrātisku arhitektūru bioloģisko secību modelēšanai, izmantojot SSM, lai efektīvi tuvinātu multilineāras polinomu funkcijas. Tās efektivitāte atvieglo piekļuvi uzlabotai bioloģiskajai modelēšanai terapeitiskajos, patogēnu uzraudzības un biotehnoloģiju pielietojumos.
Plašāku informāciju var atrast pētījuma publikācijā. Visu atzinību par šo pētījumu pelnījuši tā autori.
https://www.marktechpost.com/