Skip to main content

Jaunākie AI Pētījumi no UC Berkeley Iepazīstina ar TULIP: Vienotu Kontrastīvās Mācīšanās Modeli Augstas Precizitātes Redzes un Valodas Sapratnei

Jauns pētījums par mākslīgo intelektu un vizuālo sapratni

Pēdējie sasniegumi mākslīgā intelektā ir ievērojami uzlabojuši mašīnu spēju asociēt vizuālo saturu ar valodu. Kontrastīvās mācīšanās modeļi ir bijuši nozīmīgi šajā pārveidē, īpaši tie, kas saskaņo attēlus un tekstu kopīgā iegulšanas telpā. Šie modeļi ir būtiski nulles izmēģinājumu klasifikācijai, attēlu un teksta meklēšanai, kā arī daudzveidīgam spriešanai. Tomēr, lai gan šie rīki ir paplašinājuši iespējas saskaņot augsta līmeņa jēdzienus starp dažādiem veidiem, tie joprojām saskaras ar grūtībām, apstrādājot precīzāku, telpiski detaļainu un detalizētu vizuālo informāciju.

Viena no galvenajām neatrisinātajām problēmām ir semantiskās saprašanas un augstas izšķirtspējas vizuālās atpazīšanas balansēšana. Lielākā daļa esošo kontrastīvo modeļu prioritizē plašu semantisko saskaņošanu, nevis telpisko precizitāti, tādējādi tie slikti darbojas uzdevumos, kuros nepieciešama priekšmetu skaita, dziļuma, smalku tekstūru vai precīzu objektu atrašanās vietu izpratne. Šie ierobežojumi rodas no modeļu apmācības veida – bieži vien uz liela mēroga, brīvi marķētiem datu kopumiem – un optimizācijas stratēģijām, kas dod priekšroku globālai pazīmju saskaņošanai, nevis detalizētai vizuālai analīzei. Telpiski apzinātu attēlojumu trūkums kavē veiktspēju smalkākos vizuālos uzdevumos.

Pieejamie modeļi, piemēram, CLIP, ALIGN un SigLIP, ir sasnieguši augstu veiktspēju daudzās klasifikācijas un meklēšanas salīdzinājumos. Šie modeļi izmanto lielas datu kopas, lai saskaņotu attēlu un teksta pārus kontrastīvā veidā, tuvinot semantiski līdzīgus piemērus iegulšanas telpā. Tomēr šāda pieeja bieži vien ignorē detalizētus attēlojumus, kas ir būtiski specializētiem uzdevumiem. Piemēram, modeļi, kas apmācīti tikai ar attēlu un teksta pāriem, var veiksmīgi aprakstīt, kas ir attēlā, bet grūtības rodas, saskaitot atsevišķus objektus vai atšķirot nelielas atšķirības starp līdzīgiem priekšmetiem. Vizijai centrēti modeļi, piemēram, DINO vai MAE, piedāvā spēcīgu pazīmju izvilkšanu, bet tiem trūkst valodas interpretējamības, kas padara tos mazāk piemērotus daudzveidīgām lietojumprogrammām.

Kalifornijas Universitātes Bērklijā pētnieki ir ieviesuši jaunu modeli ar nosaukumu TULIP (Towards Unified Language-Image Pretraining), lai risinātu šos ierobežojumus. Izstrādāts kā atvērtā koda, iespraudāma aizstājējprogramma esošajiem CLIP līdzīgiem modeļiem, TULIP uzlabo semantiskās saskaņošanas un augstas precizitātes vizuālā attēlojuma integrāciju. Inovācija apvieno vairākas kontrastīvās mācīšanās metodes ar ģeneratīvo datu papildināšanu un rekonstrukcijas balstītu regulēšanu. Tas ir paredzēts, lai saglabātu augsta līmeņa izpratni un smalkas detaļas, tuvinot valodas sapratni un detalizētu vizuālo analīzi.

TULIP metodoloģijā integrētas trīs kontrastīvās mācīšanās stratēģijas: attēla-attēla, attēla-teksta un teksta-teksta kontrastīvā mācīšanās. Šo vienoto struktūru darbina modulis ar nosaukumu GeCo (Generative Contrastive view augmentation), kas izmanto lielus ģeneratīvos modeļus, lai izveidotu izaicinošus attēlu un teksta papildinājumus. Tie ietver semantiski identiskas vai nedaudz mainītas variācijas, ģenerējot pozitīvus un negatīvus kontrastīvus pārus. Attēla kodētājs izmanto redzes transformatora arhitektūru ar maskētu autoenkodera rekonstrukcijas zudumu, savukārt teksta kodētājs izmanto valodas modeļus, lai pārfrāzētu saturu. Regulēšanas mērķi mudina modeli saglabāt būtiskas detaļas, piemēram, tekstūru, izkārtojumu un krāsu kopā ar semantiku.

Veiktspējas salīdzinājumi parāda, ka TULIP sasniedz ievērojamus uzlabojumus dažādos uzdevumos. ImageNet-1K nulles izmēģinājumu klasifikācijā TULIP sasniedz līdz 89,6% precizitātei, pārspējot SigLIP par 2–3 procentpunktiem vairākos datu kopumos. Dažos izmēģinājumu klasifikācijā tas gandrīz divkāršo veiktspēju salīdzinājumā ar SigLIP uz RxRx1, palielinot precizitāti no 4,6% līdz 9,8%. MMVP, vizuāli valodas salīdzinājumā, TULIP uzlabo veiktspēju salīdzinājumā ar SigLIP vairāk nekā 3 reizes. Tas arī pārspēj konkurentu modeļus Winoground salīdzinājumā, kļūstot par pirmo CIT modeli, kas sasniedz rezultātus, kas ir labāki par nejaušiem, grupās balstītos spriešanas uzdevumos. BLINK vērtējumi noved pie uzdevumiem, piemēram, telpiskā spriešana un objektu lokalizācija, konkurējot vai pārspējot dažas GPT-4 balstītas sistēmas.

Šis pētījums piedāvā pārliecinošu risinājumu būtiskam daudzveidīgās mācīšanās kompromisam: vizuālo detaļu un semantiskās sakarības sasniegšanu. Pētnieku komanda ir parādījusi, ka ģeneratīvo papildinājumu un daudzskata kontrastīvo paņēmienu ieviešana iepriekšējā apmācībā ievērojami uzlabo modeļa spējas veikt sarežģītu vizuālu un lingvistisku spriešanu. TULIP nosaka jaunu virzienu nākotnes vizuāli valodas sistēmām, kas apvieno gan plašu, gan smalku izpratni vienotā modelī.


Apmeklējiet pētījuma rakstu, projekta lapu un GitHub lapu. Visu atzinību par šo pētījumu saņem šī projekta pētnieki. Sekojiet mums arī Twitter un pievienojieties mūsu 85k+ ML SubReddit kopienai.

https://www.marktechpost.com/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *