Skip to main content

OpenAI Iepazīstina ar Jaunākajiem Audio Modeļiem ‘gpt-4o-mini-tts’, ‘gpt-4o-transcribe’ un ‘gpt-4o-mini-transcribe’: Uzlabotas Reālā Laika Runas Sintēzes un Transkripcijas Iespējas Izstrādātājiem

Jaunākās audio tehnoloģijas no OpenAI

Balsu mijiedarbības straujais pieaugums digitālajā vidē ir radījis arvien augstākas lietotāju prasības pēc dabiskām un neviegli izveidotām audio pieredzēm. Tradicionālās runas sintēzes un transkripcijas tehnoloģijas bieži vien cieš no lielas aizkaves, mākslīguma un nepietiekamas reāllaika apstrādes, tādējādi padarot tās nepiemērotas reālistiskiem, lietotāju centriskiem risinājumiem. Lai risinātu šīs problēmas, OpenAI ir izlaidis jaunu audio modeļu kolekciju, kas veidos jaunu standartu reāllaika audio mijiedarbībām.

OpenAI savā API ir pievienojis trīs jaunus audio modeļus, kas būtiski paplašina izstrādātāju iespējas apstrādāt audio datus reāllaikā. Divi no tiem paredzēti runas-teksta pārveidei, bet trešais – teksta-runas pārveidei, ļaujot izstrādātājiem veidot dabisku, atsaucīgu un personalizētu balsu mijiedarbību.

Jaunie modeļi ietver:

  1. ‘gpt-4o-mini-tts’
  2. ‘gpt-4o-transcribe’
  3. ‘gpt-4o-mini-transcribe’

Katrs no šiem modeļiem ir izstrādāts, lai risinātu konkrētus audio mijiedarbības uzdevumus, atspoguļojot OpenAI centienus uzlabot lietotāju pieredzi digitālajās saskarnēs. Šīs inovācijas veicina gan pakāpeniskus uzlabojumus, gan pārveidojošas izmaiņas audio mijiedarbību pārvaldībā un integrācijā lietojumprogrammās.

‘gpt-4o-mini-tts’ modelis ļauj izstrādātājiem ģenerēt reālistisku runu no teksta. Atšķirībā no iepriekšējām tehnoloģijām, šis modelis nodrošina ievērojami mazāku aizturi un augstu dabiskumu balsī. OpenAI norāda, ka tas rada izcilu skaņas skaidrību un dabiskus runas modeļus, padarot to ideālu virtuālajiem asistentiem, audio grāmatām un reāllaika tulkošanas ierīcēm.

Savukārt ‘gpt-4o-transcribe’ un ‘gpt-4o-mini-transcribe’ ir divi runas-teksta transkripcijas modeļi, kas optimizēti atšķirīgiem lietojumiem. Pirmais ir paredzēts situācijām, kur nepieciešama augsta precizitāte, piemēram, trokšņainā vai sarežģītā vidē. Otrais ir optimizēts ātrai, zema aizkaves transkripcijai, piemērotāks IoT ierīcēm vai reāllaika mijiedarbības sistēmām.

Piedāvājot “mini” versijas, OpenAI ļauj izstrādātājiem izmantot šīs tehnoloģijas ierīcēs ar ierobežotiem resursiem, piemēram, mobilajās vai edge ierīcēs. Šis jauninājums paplašina OpenAI iespējas pēc tādu modeļu kā GPT-4 un Whisper panākumiem. Jaunie audio modeļi papildina šīs iespējas, pievienojot uzlabotas balsu apstrādes funkcijas.

Nobeigumā, lietojumprogrammas, kas izmanto šos modeļus, varēs piedāvāt ievērojami uzlabotu lietotāju mijiedarbību un funkcionalitāti. Reāllaika audio apstrāde ar augstāku precizitāti un mazāku aizturi padara šos rīkus konkurētspējīgus daudzās nozarēs.


Plašāku informāciju var atrast oficiālajā OpenAI paziņojumā. Visu atzinību par šo pētījumu velti tā autoriem. Sekojiet mums arī Twitter un pievienojieties mūsu 80k+ ML kopienai Reddit.

https://www.marktechpost.com/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *