Skip to main content

Hume AI atklāj TADA: Atvērtā koda TTS modelis, kas runā piecas reizes ātrāk par reālo laiku

Mākslīgā intelekta pasaulē notiek klusa revolūcija, un tās centrā šodien ir balss. Izziņas pētniecības uzņēmums Hume AI tikko ir izlaidis savu pirmo atvērtā koda teksta-runas sintēzes (TTS) modeli, kas sola būtiski pārveidot, kā mašīnas runā ar cilvēkiem. Modelis ar nosaukumu TADA (no Text-Acoustic Dual Alignment) ir vairāk nekā tikai vēl viens balss ģenerators. Tas ir būtisks solis uz priekšu, kas piedāvā neticamu ātrumu, ilgu formāta audio atbalstu un unikālu arhitektūru, kas padara to par spēcīgu instrumentu gan pētniekiem, gan izstrādātājiem visā pasaulē.

Kas ir TADA un kāpēc tas ir tik nozīmīgs?

Iedomājieties balss palīgu, kas runā ne tikai dabiskā, bet arī ātrākā tempā, nekā jūs varētu sekot, un spēj nepārtraukti runāt vairāk nekā 10 minūtes. Tā ir TADA realitāte. Tradicionālie TTS sistēmas bieži vien cīnās ar ātruma, dabiskuma un konteksta uzturēšanas ilgākos fragmentos kompromisiem. TADA risina šīs problēmas, ieviešot jaunu pieeju tokenizācijai – procesam, kurā teksts tiek sadalīts mašīnai saprotamās vienībās.

Dvīņu līdzināšanas maģija: Teksta un akustikas saderība

TADA kodētais nosaukums – Text-Acoustic Dual Alignment – atklāj tā galveno inovāciju. Lielākā daļa sistēmu izmanto vienkāršu teksta tokenizāciju. TADA izmanto DIVAS tokenizācijas plūsmas vienlaikus: vienu tekstam un vienu akustiskajiem elementiem. Tas it kā sniedz modelim ne tikai grāmatu, ko lasīt, bet arī pilnīgu rokasgrāmatu par to, kā tā saturu izrunāt – ar pareizu intonāciju, pauzēm un emocionālo nokrāsu. Šī dubultā līdzināšana ir tas, kas ļauj sasniegt pārsteidzošo ātrumu un skaņas kvalitāti.

TADA galvenās priekšrocības: Ātrums, ilgums un pieejamība

Kāpēc izstrādātāji un pētnieki visā pasaulē jau svin šī atklājuma ziņas? Apskatīsim skaitļus un iespējas.

Piecas reizes ātrāk par reālo laiku: Neticama veiktspēja

Visizteiksmīgākais TADA parametrs, iespējams, ir tā ātrums. Modelis spēj ģenerēt runu ar **piecas reizes lielāku ātrumu** nekā reālā laika atskaņošana. Praktiski tas nozīmē, ka vienas minūtes garumā audio ģenerēšanai nepieciešamas tikai 12 sekundes. Iedomājieties, cik ātri varētu strādāt audiogrāmatu, e-kursu satura vai balss interfeisu izveide. Tas rada iespējas līdz šim nepiedomājamai mērogamēšanai.

Milzīgs audio ilgums: Atbalsts līdz 700 sekundēm

No ātruma pārejam pie izturības. TADA spēj apstrādāt un ģenerēt nepārtrauktu audio **līdz 700 sekundēm** vienā pieprasījumā. Tas ir vairāk nekā 11 minūtes skaņas materiāla. Šāda garuma atbalsts padara to ideālu risinājumu garu formātu saturam, piemēram, lekcijām, padziļinātiem podcastiem vai pat nelielām audio lugām, kur svarīga ir konsekventa balss tonis visā garumā.

Atvērtā koda dāvana: Brīva piekļuve visai kopienai

Varbūt vissvarīgākais ir tas, ka Hume AI ir izvēlējies šo jaudīgo tehnoloģiju padarīt par **atvērtā koda** projektu. Tas nozīmē, ka pilnais kods, modelis un dokumentācija ir brīvi pieejami platformās, piemēram, GitHub. Pētnieki var to pētīt un uzlabot, izstrādātāji var to integrēt savos projektos, un uzņēmumi var to pielāgot savām vajadzībām bez licencēšanas maksas. Šis solis paātrina inovācijas visā nozarē un demokratizē augsto līmeņu TTS tehnoloģiju.

Kā TADA mainīs nākotnes skaņas ainavu?

TADA ienākšana tirgū nav tikai tehniskas jauninājums; tā ir jaunu iespēju durvju atvēršana dažādās nozarēs.

Pietiekami ātri reāllaika lietojumprogrammām

Ātrums, kas piecas reizes pārsniedz reālo laiku, atver iespējas patiesi reāllaika lietojumiem. Iedomājieties tūrisma gidu, kas runā jūsu valodā bez kavēšanās, tieši brīdī, kad jūs tuvojaties apskates objektam. Vai robota tālrunis, kas var spontāni un fluidi atbildēt, negaidot apstrādes pēcpēdējā sekundē. TADA padara šādas interaktīvas pieredzes daudz gludākas un ticamākas.

Revolūcija satura radīšanā

Satura radītājiem – no audiogrāmatu izdevējiem līdz video veidotājiem YouTube – šis ir spēcīgs instruments. Garu audio failu ģenerēšana kļūst ātra un efektīva. Varēs radīt daudzvalodu audio saturu dažu stundu, nevis dienu, laikā. Tas arī padara personalizētu satura ģenerēšanu par reālu iespēju, piemēram, ģenerējot bērnu pasakas ar bērna vārdu vai mācību materiālus, kas pielāgoti konkrētam skolēnam.

Pētniecības kāpurķēžu noņemšana

Kā atvērtā koda modelis, TADA kalpo kā izcila bāze turpmākai pētniecībai. Akadēmiskās grupas un neatkarīgie pētnieki var būvēt uz tā pamata, eksperimentēt ar jaunām balss stila pārnešanas metodēm, mazāk resursiem pieprasošām versijām vai pielāgošanu retāk lietotām valodām. Tā kā kods ir pieejams, progress var notikt daudz ātrāk, nevis sākot no nulles.

Kāds ir nākamais solis? Nākotne ar TADA

Hume AI ar TADA ir ielikusi pamatakmeni. Nākotnē mēs, iespējams, redzēsim šī modeļa pielāgojumus specifiskām valodām, emocionāli bagātīgākam izteiksmīgumam vai pat integrācijai ar citām AI modalitātēm, piemēram, ģeneratīvo video. Tā kā tas ir atvērtā koda, kopiena noteiks daudz no tā attīstības virziena.

Viena lieta ir skaidra: balss AI vairs nav tikai par to, lai pārvērstu tekstu mehāniskā runā. Tā ir par bagātīgas, ātras un pieejamas cilvēka izteiksmes radīšanu. Ar TADA, Hume AI ir ieslēdzis šīs nākotnes dzinēju un iedevušas atslēgu visiem, kas vēlas piedalīties braucienā. Laiks ir klausīties, ko kopiena ar to izveidos.

**Avots:** Informācija par TADA balstīta uz oficiālo paziņojumu, pieejamu [testingcatalog.com](https://www.testingcatalog.com/hume-ai-releases-its-first-open-source-tts-model-tada/).

Avots: https://www.testingcatalog.com/hume-ai-releases-its-first-open-source-tts-model-tada/

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *