Skip to main content

NVIDIA Ievieš Cosmos-Reason1: Multimodāls Modelis Fiziskās Veselās Saprāta un Iemiesotās Spriešanas Analīzei

Pētījums par fizisko AI un tās spēju saprast pasauli

Mākslīgā intelekta sistēmām, kas darbojas fiziskajā vidē, nepieciešamas ne tikai uztveres spējas, bet arī spēja analizēt objektus, darbības un to sekas dinamiski mainīgos apstākļos. Šīm sistēmām jāizprot telpiskās sakārtotības, cēloniski-sekas attiecības un notikumu attīstība laikā. Piemēram, robotikā, autonomajos transportlīdzekļos vai palīgtehnoloģijās AI ir jāizprot fiziskās ierobežojumus un iespējas, lai pieņemtu drošus un saprātīgus lēmumus. Šī uztveres un strukturētas domāšanas saplūšana veido fiziskā AI pamatu.

Galvenā problēma šādām sistēmām ir nespēja izdarīt secinājumus par fizisko vidi, apvienojot vizuālo un kontekstuālo informāciju. Lai gan vizuāli-valodu modeļi ir guvuši nozīmīgu progresu, tie joprojām grūtībās nosaka, vai uzdevums ir izpildīts, kāda darbība būtu jāveic tālāk vai vai piedāvātā darbība ir iespējama. Šī plaisa starp uztveri un lēmumu pieņemšanu kļūst īpaši būtiska, kad AI strādā autonomi un interpretē uzdevumus no sarežģītiem vizuāliem scenārijiem. Bez mehānismiem, kas pārbauda to spriešanu, šīs sistēmas paliek neuzticamas ātri mainīgos vai augsta riska vidēs.

Esošie modeļi, piemēram, LLaVA, GPT-4o un Gemini 2.0 Flash, ir veiksmīgi apstrādā teksta un vizuālos datus, bet nesasniedz augstus rezultātus fiziski pamatotā spriešanā. Uzdevumi, piemēram, laika secības noteikšana, telpiskā nepārtrauktība vai objektu pastāvēšanas izpratne, bieži netiek efektīvi risināti. Populārie testi bieži vien neaptver šādus scenārijus, tādējādi sniedzot ierobežotu ieskatu modeļa spējās spriest par fiziskiem notikumiem vai darbībām. Turklāt pašreizējās sistēmas parasti balstās uz teksta norādēm, nevis vizuāliem pierādījumiem, kas noved pie nekonsekventiem vai nepareiziem secinājumiem fiziskajā pasaulē.

NVIDIA pētnieki ir izveidojuši Cosmos-Reason1 – vizuāli-valodu modeļu grupu, kas speciāli izstrādāta fiziskās vides analīzei. Modeļi tika izlaisti divos izmēros: 8 miljardi un 56 miljardi parametru. Izstrādes procesā tika izmantota strukturēta pieeja, iekļaujot fiziskā veselā saprāta ontoloģijas, specializētu apmācības datu kopu izveidi un visaptverošu testu komplektu. Šie testi pārbauda spējas, piemēram, darbību prognozēšanu, uzdevumu pārbaudi un fiziskās iespējamības novērtējumu. Pētnieku komanda izstrādāja datu kopas, tostarp BridgeData V2, RoboVQA, RoboFail, AgiBot, HoloAssist un AV, lai rūpīgi novērtētu modeļus.

Cosmos-Reason1 izmanto hibrīdu Mamba-MLP-Transformer arhitektūru, kas apvieno gan vizuālās, gan valodas komponentes. Apmācības process tika veikts vairākos posmos. Sākotnēji vizuālais kodētājs un valodas modelis tika iepriekš apmācīti, izmantojot vispārīgus datus. Pēc tam tika veikta fiziskajai AI specifiska uzlabošana, ieviešot datu kopas, kas koncentrējas uz telpu, laiku un objektu mijiedarbību. Nobeigumā tika pielietota pastiprinātā mācīšanās (RL), lai uzlabotu veiktspēju laika bultiņas noteikšanā, telpisko mīklu risināšanā un objektu pastāvēšanas izpratnē. RL ietvaros tika izmantots modulārs sistēmas rāmis, kas ļāva efektīvi mērogojot apmācību. Modeļa atbildes tika strukturētas, izmantojot birkas, ļaujot vērtēt gan pareizību, gan spriešanas struktūru.

Cosmos-Reason1 novērtējums uzrādīja ievērojamu veiktspējas uzlabojumu salīdzinājumā ar citiem modeļiem. Fiziskā veselā saprāta testā Cosmos-Reason1-56B sasniedza vidējo precizitāti 60,2%, pārspējot OpenAI o1 ar 59,9%. 8 miljardu parametru variants arī uzlabojās, sasniedzot 52,3%. Iemiesotās spriešanas uzdevumos Cosmos-Reason1-56B vidēji sasniedza 63,7%, salīdzinot ar 53,5% bāzes līniju. Testi kā RoboVQA un HoloAssist uzrādīja ievērojamus uzlabojumus, attiecīgi sasniedzot 80,0% un 57,8%. Tomēr modelim radās grūtības ar datu kopu RoboFail, jo trūka pietiekami daudzveidīgu apmācības piemēru.

Noslēgumā šis pētījums ievieš mērķtiecīgu un daudzslāņu pieeju, lai uzlabotu AI sistēmu spējas spriest par fiziskām mijiedarbībām. NVIDIA pētnieki izveidoja mērogojamu apmācības metodi, apvienojot to ar visaptverošu novērtējumu, lai risinātu ilgstošas problēmas iemiesotajā spriešanā. Cosmos-Reason1 parāda, kā strukturēta uzlabošana un pastiprinātā mācīšanās var veidot AI sistēmas, kas labāk atbilst reālās pasaules fiziskajai loģikai un aģentu uzvedībai.


Plašākai informācijai apskatiet pētījumu un GitHub lapu. Visu atzinību par šo pētījumu saņem tā autori. Sekojiet mums arī Twitter un pievienojieties mūsu 85k+ ML kopienai Reddit.

https://www.marktechpost.com/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *