Qwen2.5-VL-32B-Instruct: 32B Parametru VLM, Kas Pārspēj Qwen2.5-VL-72B un GPT-4o Mini
Jauns lielmēroga vizuāli valodas modelis ar atvērtu kodu
Mākslīgā intelekta jomā vizuāli valodas modeļi (VLM) ir kļuvuši par būtiskiem rīkiem, ļaujot mašīnām interpretēt un ģenerēt informāciju gan no vizuāliem, gan teksta datiem. Lai gan šajā jomā ir sasniegts progress, joprojām pastāv izaicinājumi, kas saistīti ar modeļu veiktspējas un skaitļošanas resursu līdzsvaru, it īpaši, izvietojot liela mēroga modeļus ierobežotu resursu apstākļos.
Qwen ir izlaidis Qwen2.5-VL-32B-Instruct – 32 miljardu parametru lielu VLM, kas pārspēj savu lielāko priekšteci Qwen2.5-VL-72B un citus modeļus, piemēram, GPT-4o Mini, vienlaikus būdams pieejams ar Apache 2.0 licenci. Šis attīstības solis atspoguļo centienus veicināt atvērtā koda sadarbību un risināt nepieciešamību pēc augstas veiktspējas, bet vienlaikus skaitļošanas ziņā pārvaldāmiem modeļiem.
Tehniskie uzlabojumi un iespējas
Qwen2.5-VL-32B-Instruct modelis piedāvā vairākus uzlabojumus:
- Vizuālā sapratne: Modelis izcēlas objektu atpazīšanā un teksta, diagrammu, ikonu, grafiku un izkārtojumu analīzē attēlos.
- Aģentu iespējas: Tas darbojas kā dinamisks vizuālais aģents, spējot spriest un vadīt rīkus datoru un tālruņu mijiedarbībai.
- Video satura izpratne: Modelis spēj saprast vairāk kā stundu ilgus video un precīzi noteikt atbilstošos fragmentus, demonstrējot uzlabotu temporālo lokalizāciju.
- Objektu lokalizācija: Tas precīzi identificē objektus attēlos, ģenerējot norobežojošos kastītes vai punktus, kā arī nodrošinot stabilus JSON izvadījumus koordinātām un atribūtiem.
- Strukturētu izvadījumu ģenerēšana: Modelis atbalsta strukturētus izvadījumus tādiem datiem kā rēķini, veidlapas un tabulas, kas ir noderīgi finanšu un tirdzniecības lietojumiem.
Šīs funkcijas paplašina modeļa pielietojamību dažādās jomās, kur nepieciešama daudzveidīga multimodalitātes izpratne.
Veiktspējas novērtējumi
Empīriskie novērtējumi uzsver modeļa priekšrocības:
- Vizuālie uzdevumi: Massive Multitask Language Understanding (MMMU) testā modelis ieguva 70.0 punktus, pārspējot Qwen2-VL-72B rezultātu 64.5. MathVista testā tas sasniedza 74.7, salīdzinot ar iepriekšējo 70.5. OCRBenchV2 testā modelis ieguva 57.2/59.1, kas ir ievērojami augstāk nekā iepriekšējie 47.8/46.1. Android Control uzdevumos tas sasniedza 69.6/93.3, pārspējot iepriekšējos 66.4/84.4.
- Teksta uzdevumi: Modelis demonstrēja konkurētspējīgu veiktspēju, iegūstot 78.4 punktus MMLU, 82.2 MATH un iespaidīgus 91.5 HumanEval testā, dažās jomās pārspējot tādus modeļus kā GPT-4o Mini.
Šie rezultāti apliecina modeļa līdzsvaroto prasmju dažādos uzdevumos.
Secinājumi
Qwen2.5-VL-32B-Instruct ir nozīmīgs solis vizuāli valodas modelēšanas attīstībā, sasniedzot harmonisku veiktspējas un efektivitātes kombināciju. Tā pieejamība ar atvērtu kodu Apache 2.0 licencē iedvesmo globālo AI kopienu izpētīt, pielāgot un uzlabot šo robusto modeli, potenciāli paātrinot inovācijas un pielietojumu dažādās nozarēs.
Plašākai informācijai apmeklējiet modeļa svaru lapu. Visu atzinību par šo pētījumu veltiet projekta pētniekiem. Sekojiet mums arī Twitter un pievienojieties mūsu 85k+ ML SubReddit kopienai.
https://www.marktechpost.com/