Skip to main content

Vienots akustiski-runāšanas-valodas iegulšanas telpa atklāj dabiskās valodas apstrādes neiroanatomiju ikdienas sarunās

Pētījums par valodas apstrādi cilvēka smadzenēs

Valodas apstrāde smadzenēs ir sarežģīts un daudzdimensionāls process, kas ir atkarīgs no konteksta. Psiholingvisti tradicionāli ir mēģinājuši izveidot noteiktas simboliskas struktūras, piemēram, fonēmas runas analīzei vai vārdu daļas sintaktiskajām struktūrām. Tomēr, lai arī tiek atzīta savstarpējā ietekme starp dažādiem valodas līmeņiem, lielākā daļa pētījumu ir koncentrējušies uz atsevišķu lingvistisko apakšjomu izpēti kontrolētos eksperimentos. Šī pieeja ir radījusi atšķirības starp dabiskās valodas apstrādes modeļiem un formālajām psiholingvistiskajām teorijām, kuras bieži nespēj pilnībā atspoguļot sarežģītās, nelineārās un kontekstam atkarīgās mijiedarbības valodas apstrādē.

Nesenie lielo valodu modeļu (LLM) attīstības sasniegumi ir ievērojami uzlabojuši sarunu valodas apstrādi, tekstu kopsavilkumu veidošanu un ģenerēšanu. Šie modeļi spēj efektīvi apstrādāt gan sintaktiskās, gan semantiskās, gan pragmatiskās teksta īpašības, kā arī atpazīt runu no akustiskiem ierakstiem. Multimodālie, end-to-end modeļi ir nozīmīgs teorētisks solis uz priekšu, jo tie nodrošina vienotu sistēmu, kas pārveido nepārtrauktu audio signālu runas un vārdu līmeņa lingvistiskajos aspektos sarunu laikā. Atšķirībā no tradicionālajām metodēm, šie dziļie akustiski-runas-valodas modeļi balstās uz daudzdimensionāliem vektoru attēlojumiem, kuros visi runas un valodas elementi tiek iegulti nepārtrauktos vektoros, optimizējot vienkāršus mērķus.

Pētnieku komanda no vairākām prestižām institūcijām, tostarp Hebreju Universitātes, Google Research un Harvarda Medicīnas skolas, ir izstrādājusi vienotu skaitļošanas sistēmu, kas savieno akustiskos, runas un vārdu līmeņa lingvistiskos elementus, lai izpētītu ikdienas sarunu neirobioloģiskos pamatus. Viņi izmantoja elektrokortikogrāfiju, lai reģistrētu neironu aktivitāti vairāk nekā 100 stundu garumā, kamēr dalībnieki veica brīvas sarunas. No multimodālā runas-teksta modeļa Whisper tika iegūti dažādi iegulšanas veidi, piemēram, zemā līmeņa akustiskie, vidēja līmeņa runas un kontekstuālie vārdu iegulšanas veidi. Šis modelis spēj paredzēt neironu aktivitāti katrā valodas apstrādes līmenī pat ilgākās neparedzētās sarunās.

Whisper modeļa iekšējie procesi tika analizēti, lai modelētu un prognozētu neironu aktivitāti ikdienas sarunu laikā. Trīs veidu iegulšanas tika iegūti no modeļa katram pacientu izrunātam vai dzirdētam vārdam: akustiskie (no audio ievades slāņa), runas (no pēdējā runas kodētāja slāņa) un valodas (no dekodera pēdējiem slāņiem). Katram iegulšanas veidam tika izveidoti kodēšanas modeļi, kas kartē šos datus uz neironu aktivitāti runas veidošanas un uztveres laikā. Šie modeļi uzrāda ievērojamu saskaņu starp cilvēka smadzeņu aktivitāti un modeļa iekšējo kodu, precīzi prognozējot neironu reakcijas simtiem tūkstošu vārdu garumā sarunu datos.

Whisper modeļa akustiskie, runas un valodas iegulšanas veidi uzrāda izcilu precizitāti, prognozējot neironu aktivitāti visā kortikālajā valodas tīklā. Runas veidošanas laikā tika novērota hierarhiska apstrāde: artikulācijas zonas (preCG, postCG, STG) labāk tika prognozētas ar runas iegulšanas veidiem, bet augstāka līmeņa valodas zonas (IFG, pMTG, AG) saskanēja ar valodas iegulšanas veidiem. Kodēšanas modeļi uzrādīja arī temporālu specifiskumu – veiktspēja sasniedza maksimumu vairāk nekā 300 ms pirms vārda sākuma runas veidošanas laikā un 300 ms pēc sākma uztveres laikā.

Kopsavilkumā, akustiski-runas-valodas modelis piedāvā vienotu skaitļošanas sistēmu, lai izpētītu dabiskās valodas apstrādes neirobioloģiskos pamatus. Šī integrētā pieeja rada paradigmas maiņu, virzoties uz nē-simboliskiem modeļiem, kas balstīti uz statistisko mācīšanos un augstdimensionāliem iegulšanas telpām. Turpinoties šo modeļu attīstībai, to saskaņotība ar cilvēka kognitīvajiem procesiem, iespējams, tiks tālāk uzlabota. Daži uzlaboti modeļi, piemēram, GPT-4o, iekļauj vizuālo modalitāti līdzās runai un tekstam, bet citi integrē iemiesotus artikulācijas sistēmas, kas atdarina cilvēka runas veidošanu. Šo tehnoloģiju straujā attīstība atbalsta vienotas lingvistiskās paradigmas izveidi, kas uzsver lietošanā balstītas statistiskās mācīšanās lomu valodas apguvē reālos dzīves kontekstos.


Plašākai informācijai skatiet pētījumu un Google Blog. Visu atzinību par šo pētījumu saņem tā autori. Ja interesējaties par līdzīgiem tematiem, varat mūs sekot Twitter un pievienoties mūsu 85k+ lielajai ML kopienai Reddit.

https://www.marktechpost.com/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *