Google DeepMind CaMeL: Drošības slānis LLM aizsardzībai pret uzbrukumiem
Jauna drošības pieeja lielo valodu modeļu aizsardzībai
Lielie valodu modeļi (LLM) kļūst par neatņemamu daļu no mūsdienu tehnoloģijām, darbinot aģentu sistēmas, kas dinamiski mijiedarbojas ar ārējo vidi. Lai gan šie modeļi ir iespaidīgi, tie ir ļoti neaizsargāti pret promptu injekcijas uzbrukumiem. Šie uzbrukumi notiek, kad pretinieki caur neuzticamiem datu avotiem ievada ļaunprātīgus norādījumus, mērķējot uz sistēmas kompromitēšanu, jutīgu datu iegūšanu vai kaitīgu operāciju veikšanu. Tradicionālās drošības metodes, piemēram, modeļu apmācība un promptu inženierija, ir rādījušas ierobežotu efektivitāti, uzsverot steidzamo nepieciešamību pēc stabilām aizsardzības mehānismiem.
Google DeepMind pētnieki ir izstrādājuši CaMeL – jaunu aizsardzības risinājumu, kas izveido aizsargājošu sistēmas slāni ap LLM, pasargājot to pat tad, ja pamatā esošie modeļi var būt neaizsargāti pret uzbrukumiem. Atšķirībā no tradicionālajām pieejām, kas prasa modeļu pārmācību vai modifikācijas, CaMeL ievieš jaunu paradigmu, kas iedvesmota no pierādītām programmatūras drošības praksēm. Tas skaidri atdala kontroles un datu plūsmas no lietotāju vaicājumiem, nodrošinot, ka neuzticami ievadi nekad tieši nemainīs programmas loģiku. Šis dizains izolē potenciāli kaitīgus datus, neļaujot tiem ietekmēt lēmumu pieņemšanas procesus, kas raksturīgi LLM aģentiem.
Tehniskā ieviešana un drošības princips
CaMeL darbojas, izmantojot divu modeļu arhitektūru: Privileģēto LLM un Karantīnas LLM. Privileģētais LLM organizē visu uzdevumu, izolējot jutīgās operācijas no potenciāli kaitīgiem datiem. Karantīnas LLM apstrādā datus atsevišķi un ir tieši atbrīvots no rīku izsaukšanas iespējām, lai ierobežotu iespējamos postījumus. CaMeL papildus pastiprina drošību, piešķirot metadatus jeb “spējas” katrai datu vērtībai, stingri definējot politikas par to, kā katra informācijas daļa var tikt izmantota. Pielāgots Python interpretators uzrauga šos smalkās granulējumam drošības noteikumus, kontrolējot datu izcelsmi un nodrošinot atbilstību caur skaidriem kontroles plūsmas ierobežojumiem.
Efektivitāte un salīdzinājums
Empīriskās izvērtēšanas rezultāti, izmantojot AgentDojo testa sistēmu, uzrāda CaMeL efektivitāti. Kontrolētos testos CaMeL veiksmīgi novērsa promptu injekcijas uzbrukumus, stingri ieviešot drošības politikas detalizētā līmenī. Sistēma saglabāja funkcionalitāti, droši veicot 67% no uzdevumiem AgentDojo ietvaros. Salīdzinot ar citām aizsardzības metodēm, piemēram, “Prompt Sandwiching” un “Spotlighting”, CaMeL ievērojami pārspēja konkurentus drošības ziņā, nodrošinot gandrīz pilnīgu aizsardzību pret uzbrukumiem, kamēr radīja mērenus papildu slodzes rādītājus. Papildu slodze galvenokārt izpaudās tokenu lietojumā – aptuveni 2,82× vairāk ievades tokenu un 2,73× vairāk izvades tokenu, kas ir pieņemami, ņemot vērā nodrošinātos drošības garantijus.
Turklāt CaMeL risina smalkas ievainojamības, piemēram, datu-kontroles plūsmas manipulācijas, stingri pārvaldot atkarības caur metadatu balstītām politikām. Piemēram, scenārijs, kurā pretinieks mēģina izmantot šķietami nekaitīgus norādījumus no e-pasta datiem, lai kontrolētu sistēmas izpildes plūsmu, tiks efektīvi novērsts ar CaMeL stingro datu marķēšanas un politikas ieviešanas mehānismiem. Šāda visaptveroša aizsardzība ir būtiska, ņemot vērā, ka tradicionālās metodes varētu neatzīt šādus netiešās manipulācijas draudus.
Secinājumi
CaMeL ir nozīmīgs solis uz priekšu LLM darbinātu aģentu sistēmu drošībā. Tā spēja stingri ievērot drošības politikas, nemainot pamatā esošo LLM, piedāvā spēcīgu un elastīgu pieeju promptu injekcijas uzbrukumu novēršanai. Izmantojot principus no tradicionālās programmatūras drošības, CaMeL ne tikai novērš tiešus promptu injekcijas riskus, bet arī aizsargā pret sarežģītiem uzbrukumiem, kas izmanto netiešu datu manipulāciju. Tā kā LLM integrāciba plašāk iekļaujas jutīgās lietojumprogrammās, CaMeL ieviešana varētu būt būtiska, lai saglabātu lietotāju uzticēšanos un nodrošinātu drošu mijiedarbību sarežģītās digitālajās ekosistēmās.
Plašākai informācijai apskatiet pētījumu. Visu atzinību par šo pētījumu izpildi pelna tā autori. Sekojiet mums arī Twitter un pievienojieties mūsu 85k+ lielajai ML kopienai Reddit.
https://www.marktechpost.com/