AI baru yang menyeramkan dapat mensimulasikan suara Anda dengan sempurna setelah mendengarnya selama 3 detik

Sangat bagus sehingga penciptanya mengakuinya "dapat membawa risiko potensial dalam penyalahgunaan."


Teknologi modern telah merevolusi cara kita menyelesaikan sesuatu. Bahkan versi paling mendasar dari Smartphone di sebagian besar kantong orang Atau perangkat rumah pintar di ruang tamu kami memiliki kemampuan yang mengesankan - terutama ketika Anda menganggap Anda dapat mengendalikannya hanya dengan berbicara, berkat kecerdasan buatan (AI). Tetapi bahkan ketika komputer telah berkembang untuk membantu membuat hidup kita lebih mudah, mereka juga memasuki wilayah baru karena mereka dapat meniru perilaku manusia dan bahkan berpikir sendiri. Dan sekarang, satu bentuk AI menyeramkan baru dapat mensimulasikan suara Anda dengan sempurna bahkan setelah mendengarnya hanya selama tiga detik. Baca terus untuk mempelajari lebih lanjut tentang teknologi inovatif.

Baca ini selanjutnya: Jangan pernah mengisi daya ponsel Android Anda dengan cara ini, kata para ahli .

Microsoft telah mengembangkan jenis AI baru yang dapat dengan sempurna mensimulasikan suara Anda.

A young woman recording her voice on a computer using a microphone and headphones
Shutterstock / Soloviova liudmyla

Kita semua mengandalkan mesin untuk membuat hidup kita sehari -hari lebih mudah dalam satu atau lain cara. Tapi bagaimana jika komputer bisa masuk dan meniru cara Anda berbicara Tanpa orang lain bahkan memperhatikan?

Pekan lalu, para peneliti di Microsoft mengumumkan bahwa mereka telah mengembangkan bentuk baru AI teks-ke-pidato yang telah dijuluki Vall-E, ARS Technica melaporkan. Teknologi ini dapat mensimulasikan suara seseorang dengan menggunakan klip audio tiga detik, bahkan mengambil dan melestarikan nada emosional speaker asli dan suara akustik lingkungan tempat mereka merekam. Tim mengatakan model ini bisa berguna untuk membuat vokalisasi teks otomatis - meskipun ia datang dengan risiko potensial dari dupe yang sangat canggih yang mirip dengan video Deepfake.

Perusahaan mengatakan teknologi baru ini didasarkan pada "model bahasa codec saraf."

A man sitting on his computer while talking to his phone's virtual assistant
Shutterstock / Fizkes

Di korannya mendiskusikan teknologi baru , Microsoft menjuluki Vall-e "model bahasa codec saraf." Apa artinya ini adalah bahwa sementara perangkat lunak Text-to-Speech (TTS) tradisional mengambil kata-kata tertulis dan memanipulasi bentuk gelombang untuk menghasilkan vokalisasi, AI dapat mengambil elemen halus dari suara dan pendaftaran audio spesifik yang membantunya membuat rekreasi yang andal dari a orang yang berbicara hukuman apa pun Itu diumpankan untuk itu, menurut situs web teknik yang menarik. AE0FCC31AE342FD3A1346EBB1F342FCB

"Untuk mensintesis pidato yang dipersonalisasi (mis., TT Zero-shot), Vall-E menghasilkan token akustik yang sesuai yang dikondisikan pada token akustik dari perekaman terdaftar 3 detik dan prompt fonem, yang membatasi pembicara dan informasi konten masing-masing," Tim menjelaskan dalam makalah mereka. "Akhirnya, token akustik yang dihasilkan digunakan untuk mensintesis gelombang akhir dengan dekoder codec saraf yang sesuai."

TERKAIT: Untuk informasi terbaru, daftar untuk buletin harian kami .

Tim menggunakan lebih dari 60.000 jam pidato yang direkam untuk melatih AI baru.

author writing on computer
Michael Julius Foto / Shutterstock

Untuk mengembangkan model baru, tim mengatakan mereka menggunakan sekitar 60.000 jam pidato yang direkam dalam bahasa Inggris dari lebih dari 7.000 pembicara individu dari perpustakaan audio yang dikumpulkan oleh meta yang dikenal sebagai Librilight. Dalam kebanyakan kasus, rekaman ditarik dari pembacaan buku audio domain publik Disimpan di Librivox, ARS Technica melaporkan. Dalam uji cobanya, tim mengatakan bahwa Vall-E membutuhkan suara dalam sampel tiga detik untuk sangat mirip dengan salah satu suara dari data pelatihannya untuk menghasilkan hasil yang meyakinkan.

Tim sekarang menampilkan pekerjaan mereka memposting contoh spesifik perangkat lunak yang beraksi di halaman GitHub. Masing-masing memberikan klip tiga detik dari suara pembaca pembicaraan teks acak dan "kebenaran darat," yang merupakan contoh rekaman dari pembicara yang membaca kalimat yang akan digunakan untuk perbandingan. Mereka kemudian memberikan rekaman "baseline" untuk menunjukkan bagaimana perangkat lunak TTS khas akan menghasilkan audio lisan dan versi "Vall-E" dari rekaman untuk dibandingkan dengan dua sebelumnya.

Meskipun hasilnya tidak sepenuhnya sempurna, mereka memang menunjukkan beberapa contoh yang sangat meyakinkan di mana pidato yang dihasilkan mesin terdengar sangat manusiawi. Para peneliti juga menambahkan bahwa selain meniru infleksi dan emosi, perangkat lunak juga dapat mereplikasi lingkungan di mana audio dasar dicatat - misalnya, membuatnya terdengar seperti seseorang berbicara di luar ruangan, di ruang yang bergema, atau pada panggilan telepon.

Sejauh ini, Microsoft belum merilis program untuk orang lain untuk menguji atau bereksperimen.

hands typing on a laptop
ISTOCK

Tim peneliti menyimpulkan makalah mereka dengan mengatakan bahwa mereka berencana untuk meningkatkan jumlah data pelatihan untuk membantu model meningkatkan gaya berbicara dan menjadi lebih baik dalam meniru suara manusia. Tetapi untuk saat ini, Microsoft juga menahan diri dari membuat perangkat lunak baru tersedia untuk pengembang atau masyarakat umum untuk menguji - terutama karena kemampuannya untuk menipu orang atau digunakan untuk tujuan jahat.

"Karena Vall-E dapat mensintesis pidato yang mempertahankan identitas pembicara, itu dapat membawa risiko potensial dalam penyalahgunaan model, seperti spoofing identifikasi suara atau menyamar sebagai pembicara tertentu," tulis penulis dalam kesimpulan mereka. "Untuk mengurangi risiko seperti itu, dimungkinkan untuk membangun model deteksi untuk membedakan apakah klip audio disintesis oleh Vall-E. Kami juga akan menerapkan prinsip-prinsip Microsoft AI ketika mengembangkan lebih lanjut model."


Ini adalah kegiatan paling berbahaya bagi tubuh Anda setelah 40
Ini adalah kegiatan paling berbahaya bagi tubuh Anda setelah 40
100 kota paling bahagia di Amerika
100 kota paling bahagia di Amerika
Putri Anna Nicole Smith Dannielynn Birkhead terlihat seperti dia pada usia 14 tahun
Putri Anna Nicole Smith Dannielynn Birkhead terlihat seperti dia pada usia 14 tahun