Kyutai Izveido MoshiVis: Pirmo Atvērtā Koda Reāllaika Balss Modeli, Kas Spēj Runāt Par Attēliem
Jauns atklājums mākslīgā intelekta jomā
Pēdējos gados mākslīgais intelekts ir veicis nozīmīgus sasniegumus, taču reāllaika balss mijiedarbības integrēšana ar vizuālu saturu joprojām ir sarežģīts uzdevums. Tradicionālās sistēmas bieži vien izmanto atsevišķas komponentes balss aktivitātes noteikšanai, runas atpazīšanai, teksta dialogiem un teksta pārvēršanai runā. Šāda sadalīta pieeja var radīt kavēšanos un ne vienmēr spēj uztvert cilvēku sarunas nianses, piemēram, emocijas vai neruniskās skaņas. Šie ierobežojumi ir īpaši redzami lietojumprogrammās, kas paredzētas redzi traucētu personu atbalstam, kur svarīga ir savlaicīga un precīza vizuālo ainavu aprakstīšana.
Risinot šīs problēmas, Kyutai ir izveidojusi MoshiVis – atvērtā koda Vizualās runas modeli (VSM), kas ļauj dabiski un reāllaikā komunicēt par attēliem. Balstoties uz iepriekšējo darbu pie Moshi – runas un teksta pamatmodeļa, kas izstrādāts reāllaika dialogiem, MoshiVis paplašina šīs iespējas, iekļaujot vizuālu informāciju. Šis uzlabojums ļauj lietotājiem veikt plūstošas sarunas par vizuālu saturu, kas ir nozīmīgs solis mākslīgā intelekta attīstībā.
Tehniski MoshiVis papildina Moshi, integrējot vieglās krusta-uzmanības moduļus, kas ievada vizuālu informāciju no esoša vizuālā kodētāja Moshi runas tokenu plūsmā. Šis dizains nodrošina, ka Moshi sākotnējās sarunu spējas paliek nemainīgas, vienlaikus ieviešot iespēju apstrādāt un apspriest vizuālus datus. Krusta-uzmanības moduļos ietvertais vārtu mehānisms ļauj modelim selektīvi izmantot vizuālos datus, saglabājot efektivitāti un atsaucību. MoshiVis pievieno aptuveni 7 milisekundes kavēšanās katrā secinājuma solī patērētāju līmeņa ierīcēs, piemēram, Mac Mini ar M4 Pro čipu, kopsummā sasniedzot 55 milisekundes katrā secinājuma solī. Šis rādītājs ir ievērojami zemāks par 80 milisekunžu reāllaika kavēšanās slieksni, nodrošinot gludu un dabisku mijiedarbību.

Praktiskos pielietojumos MoshiVis spēj sniegt detalizētus vizuālo ainavu aprakstus, izmantojot dabisku runu. Piemēram, redzot attēlu ar zaļiem metāla konstrukcijām, ko ieskauj koki un ēka ar gaiši brūnu fasādi, MoshiVis var pateikt:
“Es redzu divas zaļas metāla konstrukcijas ar sieta virsmu, un tās ir ieskauj lieli koki. Fona var redzēt ēku ar gaiši brūnu fasādi un melnu jumtu, kas, šķiet, ir veidota no akmens.”
Šī iespēja atver jaunas iespējas lietojumprogrammām, piemēram, audio aprakstu sniegšanai redzi traucētiem cilvēkiem, uzlabojot pieejamību un ļaujot dabiski mijiedarboties ar vizuālu informāciju. Publicējot MoshiVis kā atvērtā koda projektu, Kyutai aicina pētniekus un izstrādātājus izpētīt un papildināt šo tehnoloģiju, veicinot inovācijas vizuāli-runas modeļu jomā. Modeļa svaru, secinājumu koda un vizuāli-runas testu pieejamība turpinās atbalstīt kopīgus centinjus, lai uzlabotu un dažādotu MoshiVis pielietojumu.
Noslēgumā MoshiVis ir nozīmīgs mākslīgā intelekta sasniegums, kas apvieno vizuālo sapratni ar reāllaika runas mijiedarbību. Tā atvērtā koda daba veicina plašu izmantošanu un tālāku attīstību, dodot iespēju veikt pieejamāku un dabiskāku mijiedarbību ar tehnoloģijām. Turpinoties mākslīgā intelekta attīstībai, inovācijas, piemēram, MoshiVis, tuvina mūs daudzveidīgas saprašanas nevainojamai integrācijai, uzlabojot lietotāju pieredzi dažādās jomās.
Plašāku informāciju skatiet Tehniskajos detalizējumos un Izmēģiniet to šeit. Visu atzinību par šo pētījumu saņem šī projekta pētnieki. Sekojiet mums arī Twitter un pievienojieties mūsu 80k+ ML kopienai Reddit.
https://www.marktechpost.com/