Skip to main content

Cīņa par nulles šāviena pielāgošanu ģeneratīvajā mākslīgajā inteliģencē

Generatīvās AI pielāgošana bez papildu apmācības

Ja vēlaties ievietot sevi populārā attēlu vai video ģenerēšanas rīkā, bet neesat pietiekami slavens, lai pamatmodelis jūs atpazītu, jums būs jāapmāca zema ranga pielāgošanas (LoRA) modeli, izmantojot savu foto kolekciju. Kad tas ir izveidots, šis personalizētais LoRA modelis ļauj ģeneratīvajam modelim iekļaut jūsu identitāti turpmākajos rezultātos.

Pētnieku aprindās to parasti sauc par pielāgošanu. Tas pirmo reizi parādījās dažus mēnešus pēc Stable Diffusion parādīšanās 2022. gada vasarā, kad Google Research projekts DreamBooth piedāvāja augstas kvalitātes pielāgošanas modeļus slēgtā koda formātā, ko entuziasti ātri pielāgoja un izplatīja kopienai.

Drīz pēc tam parādījās LoRA modeļi, kas piedāvāja vieglāku apmācību un daudz mazākus failu izmērus, saglabājot augstu kvalitāti. Tie ātri kļuva par dominējošo pielāgošanas metodi Stable Diffusion un tā pēctečiem, vēlākajiem modeļiem, piemēram, Flux, kā arī jaunajiem video ģenerēšanas modeļiem, piemēram, Hunyuan Video un Wan 2.1.

Atkārtota apmācība

Problēma ir tā, ka kā jau iepriekš atzīmēts, katru reizi, kad parādās jauns modelis, tam nepieciešama jauna LoRA modeļu paaudze. Tas rada ievērojamu slodzi tiem, kas veido LoRA modeļus, jo viņiem var būt jāapmāca vesela virkne pielāgotu modeļu, tikai lai pēc tam atklātu, ka modeļa atjauninājums vai jaunāks modelis liek sākt visu no jauna.

Tāpēc pēdējā laikā literatūrā arvien lielāku nozīmi ieguva metodes, kas ļauj pielāgoties bez papildu apmācības. Šajā scenārijā tā vietā, lai sagatavotu datu kopu un apmācītu savu apakšmodeli, jūs vienkārši norādāt vienu vai vairākus attēlus ar objektu, kas jāiekļauj ģenerēšanā, un sistēma šos avotus interpretē un apvieno rezultātā.

Sejas ID pārnešanas piemēri, izmantojot PuLID sistēmu.

Sejas ID pārnešanas piemēri, izmantojot PuLID sistēmu. Avots: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file

HyperLoRA

Ņemot to vērā, ByteDance pētnieki ir izstrādājuši jaunu sistēmu, kas ģenerē faktiskus LoRA kodus reāllaikā, kas pašlaik ir unikāls risinājums starp metodēm bez papildu apmācības:

Kreisajā pusē ievades attēli. Labajā pusē - dažādi rezultāti, kas balstīti uz avota attēliem.

Kreisajā pusē ievades attēli. Labajā pusē – dažādi rezultāti, kas balstīti uz avota attēliem. Avots: https://arxiv.org/pdf/2503.16944

Pētījumā teikts:

‘Pielāgošanas metodes, piemēram, IP-Adapter, sasalina pamatmodeļa parametrus un izmanto iesprauduma arhitektūru, lai ļautu ģenerēšanu bez papildu apmācības, taču tās bieži vien rada mazāk dabisku un autentisku rezultātu, kas ir būtiski portretu sintēzes uzdevumos.

‘Mēs ieviešam parametru efektīvu adaptīvu ģenerēšanas metodi ar nosaukumu HyperLoRA, kas izmanto adaptīvu iesprauduma tīklu, lai ģenerētu LoRA svara koeficientus, apvienojot LoRA augsto veiktspēju ar pielāgošanas iespējām bez papildu apmācības.

‘Izmantojot rūpīgi izstrādātu tīkla struktūru un apmācības stratēģiju, mēs sasniedzam augstu fotoreālismu, precizitāti un rediģēšanas iespējas, ģenerējot personalizētus portretus bez papildu apmācības.’

Secinājumi

Neskatoties uz pastāvīgo jaunu pielāgošanas sistēmu plūsmu pēdējos 18 mēnešos, lielākā daļa no tām nav devušas ievērojamu progresu. Tām, kas ir uzlabojušas situāciju, parasti ir ļoti augstas apmācības prasības un/vai sarežģīti resursu pieprasījumi.

Lai gan HyperLoRA apmācības process ir resursietilpīgs, tas beigās ļauj veikt pielāgošanu uzreiz, nepieciešoties tikai vienu pamatmodeli.

No papildu materiāliem var redzēt, ka HyperLoRA ātrums ir labāks nekā IP-Adapter, bet sliktāks nekā divām citām metodēm. Šie rādītāji ir balstīti uz NVIDIA V100 GPU, kas nav tipiska patērētāju iekārta, lai gan jaunākas mājas videokartes var sasniegt līdzīgu veiktspēju.

https://www.unite.ai/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *