Ang katakut -takot na bagong AI ay maaaring gayahin ang iyong boses nang perpekto pagkatapos marinig ito ng 3 segundo
Napakaganda nito na inamin ng mga tagalikha nito na "maaaring magdala ng mga potensyal na panganib sa maling paggamit."
Ang modernong teknolohiya ay nagbago sa paraan ng paggawa ng mga bagay. Kahit na ang pinaka pangunahing bersyon ng Ang mga Smartphone sa karamihan ng mga bulsa ng mga tao O ang mga matalinong aparato sa bahay sa aming mga sala ay may kahanga -hangang halaga ng mga kakayahan - lalo na kung isasaalang -alang mo na maaari mong kontrolin ang mga ito sa pamamagitan lamang ng pakikipag -usap, salamat sa Artipisyal na Intelligence (AI). Ngunit kahit na ang mga computer ay umunlad upang makatulong na gawing mas madali ang aming buhay, pumapasok din sila sa bagong teritoryo habang nagagawa nilang gayahin ang pag -uugali ng tao at kahit na isipin ang kanilang sarili. At ngayon, ang isang bagong kakatakot na anyo ng AI ay maaaring gayahin ang iyong boses nang perpekto kahit na marinig ito ng tatlong segundo lamang. Magbasa upang malaman ang higit pa tungkol sa teknolohiya ng groundbreaking.
Basahin ito sa susunod: Huwag kailanman singilin ang iyong telepono sa Android sa ganitong paraan, sabi ng mga eksperto .
Ang Microsoft ay nakabuo ng isang bagong uri ng AI na maaaring walang kamali -mali na gayahin ang iyong boses.
Lahat tayo ay umasa sa mga makina upang gawing mas madali ang aming pang -araw -araw na buhay sa isang paraan o sa iba pa. Ngunit paano kung ang isang computer ay maaaring lumakad at Gawin ang paraan ng pagsasalita mo Walang iba kahit na napansin?
Noong nakaraang linggo, inihayag ng mga mananaliksik sa Microsoft na nakabuo sila ng isang bagong anyo ng text-to-speech AI na tinawag nila ang Vall-E, ulat ng ARS Technica. Ang teknolohiya ay maaaring gayahin ang tinig ng isang tao sa pamamagitan ng paggamit ng isang tatlong segundo na clip ng audio, kahit na ang pagpili at pagpapanatili ng emosyonal na tono ng tagapagsalita at ang tunog ng tunog ng kapaligiran kung saan sila nagre-record. Sinabi ng koponan na ang modelo ay maaaring madaling gamitin para sa paglikha ng mga awtomatikong vocalizations ng teksto - kahit na ito ay may mga potensyal na panganib ng lubos na sopistikadong mga dupes na katulad ng mga video ng Deepfake.
Sinabi ng kumpanya na ang bagong tech ay batay sa isang "Neural Codec Language Model."
Sa papel nito tinatalakay ang bagong tech , Microsoft Dubs Vall-E isang "Neural Codec Language Model." Ano ang ibig sabihin nito na habang ang tradisyunal na software ng Text-to-speech (TTS) ay tumatagal ng mga nakasulat na salita at manipulahin ang mga alon upang makabuo ng mga vocalizations, ang AI ay maaaring pumili ng mga banayad na elemento ng isang boses at tiyak na audio na nagtuturo na makakatulong na lumikha ng isang maaasahang libangan ng a taong nagsasalita ng anumang pangungusap Iyon ay pinakain dito, ayon sa website na kawili -wiling engineering. ae0fcc31ae342fd3a1346ebb1f342fcb
"Upang synthesize ang isinapersonal na pagsasalita (hal., Zero-shot TTS), bumubuo ang VALL-E ng kaukulang mga token ng acoustic na nakondisyon sa acoustic token ng 3-segundo na naka-enrol na pag-record at ang phoneme prompt, na pumipigil sa nagsasalita at impormasyon ng nilalaman ayon sa pagkakabanggit," ang Ipinapaliwanag ng koponan sa kanilang papel. "Sa wakas, ang nabuong acoustic token ay ginagamit upang synthesize ang pangwakas na alon na may kaukulang neural codec decoder."
Gumamit ang koponan ng higit sa 60,000 na oras ng naitala na pagsasalita upang sanayin ang bagong AI.
Upang mabuo ang bagong modelo, sinabi ng koponan na ginamit nito ang tungkol sa 60,000 oras ng naitala na pagsasalita sa Ingles mula sa higit sa 7,000 mga indibidwal na nagsasalita mula sa isang audio library na tipunin ng meta na kilala bilang Librilight. Sa karamihan ng mga kaso, ang mga pag -record ay nakuha mula sa pagbabasa ng Public-domain audiobooks Naka -imbak sa Librivox, ulat ng ARS Technica. Sa mga pagsubok nito, sinabi ng koponan na ang VALL-E ay nangangailangan ng tinig sa tatlong segundo sample upang malapit na maging katulad ng isa sa mga tinig mula sa data ng pagsasanay upang makabuo ng isang nakakumbinsi na resulta.
Ang koponan ngayon ay nagpapakita ng kanilang trabaho sa pamamagitan ng Pag -post ng mga tukoy na halimbawa ng software na kumikilos sa isang pahina ng GitHub. Ang bawat isa ay nagbibigay ng isang tatlong segundo clip ng isang boses ng isang nagsasalita ng pagbabasa ng random na teksto at isang "ground truth," na kung saan ay isang naitala na halimbawa ng speaker na nagbabasa ng isang pangungusap na gagamitin para sa paghahambing. Pagkatapos ay nagbibigay sila ng isang "baseline" na pag-record upang ipakita kung paano ang karaniwang TTS software ay bubuo ng sinasalita na audio at isang "vall-e" na bersyon ng pag-record para sa paghahambing sa nakaraang dalawa.
Habang ang mga resulta ay hindi ganap na perpekto, ipinapakita nila ang ilang mga nakakumbinsi na mga halimbawa kung saan ang tunog na binubuo ng makina ay nakakagulat na tao. Idinagdag din ng mga mananaliksik na bukod sa paggaya ng inflection at emosyon, maaari ring kopyahin ng software ang kapaligiran kung saan naitala ang base audio - halimbawa, na ginagawang tunog tulad ng isang tao na nagsasalita sa labas, sa isang echoing room, o sa isang tawag sa telepono.
Sa ngayon, hindi pinakawalan ng Microsoft ang programa para masubukan o mag -eksperimento ang iba.
Tinapos ng pangkat ng pananaliksik ang kanilang papel sa pamamagitan ng pagsasabi na plano nilang dagdagan ang dami ng data ng pagsasanay upang matulungan ang modelo na mapabuti ang mga istilo ng pagsasalita nito at maging mas mahusay sa paggaya ng tinig ng tao. Ngunit sa ngayon, pinigilan din ng Microsoft mula sa paggawa ng bagong software na magagamit para sa mga developer o pangkalahatang publiko na subukan - posibleng dahil sa kakayahang linlangin ang mga tao o magamit para sa mga hindi magandang layunin.
"Dahil ang VALL-E ay maaaring synthesize ang pagsasalita na nagpapanatili ng pagkakakilanlan ng nagsasalita, maaaring magdala ito ng mga potensyal na panganib sa maling paggamit ng modelo, tulad ng pagkilala sa boses ng boses o pagpapanggap ng isang tiyak na tagapagsalita," isinulat ng mga may-akda sa kanilang konklusyon. "Upang mabawasan ang mga panganib, posible na bumuo ng isang modelo ng pagtuklas upang makilala kung ang isang audio clip ay synthesized ng VALL-E. Ilalagay din namin ang mga prinsipyo ng Microsoft AI kapag nagsasanay kapag karagdagang pagbuo ng mga modelo."