AI baru yang menyeramkan dapat mensimulasikan suara Anda dengan sempurna setelah mendengarnya selama 3 detik
Sangat bagus sehingga penciptanya mengakuinya "dapat membawa risiko potensial dalam penyalahgunaan."
Teknologi modern telah merevolusi cara kita menyelesaikan sesuatu. Bahkan versi paling mendasar dari Smartphone di sebagian besar kantong orang Atau perangkat rumah pintar di ruang tamu kami memiliki kemampuan yang mengesankan - terutama ketika Anda menganggap Anda dapat mengendalikannya hanya dengan berbicara, berkat kecerdasan buatan (AI). Tetapi bahkan ketika komputer telah berkembang untuk membantu membuat hidup kita lebih mudah, mereka juga memasuki wilayah baru karena mereka dapat meniru perilaku manusia dan bahkan berpikir sendiri. Dan sekarang, satu bentuk AI menyeramkan baru dapat mensimulasikan suara Anda dengan sempurna bahkan setelah mendengarnya hanya selama tiga detik. Baca terus untuk mempelajari lebih lanjut tentang teknologi inovatif.
Baca ini selanjutnya: Jangan pernah mengisi daya ponsel Android Anda dengan cara ini, kata para ahli .
Microsoft telah mengembangkan jenis AI baru yang dapat dengan sempurna mensimulasikan suara Anda.
Kita semua mengandalkan mesin untuk membuat hidup kita sehari -hari lebih mudah dalam satu atau lain cara. Tapi bagaimana jika komputer bisa masuk dan meniru cara Anda berbicara Tanpa orang lain bahkan memperhatikan?
Pekan lalu, para peneliti di Microsoft mengumumkan bahwa mereka telah mengembangkan bentuk baru AI teks-ke-pidato yang telah dijuluki Vall-E, ARS Technica melaporkan. Teknologi ini dapat mensimulasikan suara seseorang dengan menggunakan klip audio tiga detik, bahkan mengambil dan melestarikan nada emosional speaker asli dan suara akustik lingkungan tempat mereka merekam. Tim mengatakan model ini bisa berguna untuk membuat vokalisasi teks otomatis - meskipun ia datang dengan risiko potensial dari dupe yang sangat canggih yang mirip dengan video Deepfake.
Perusahaan mengatakan teknologi baru ini didasarkan pada "model bahasa codec saraf."
Di korannya mendiskusikan teknologi baru , Microsoft menjuluki Vall-e "model bahasa codec saraf." Apa artinya ini adalah bahwa sementara perangkat lunak Text-to-Speech (TTS) tradisional mengambil kata-kata tertulis dan memanipulasi bentuk gelombang untuk menghasilkan vokalisasi, AI dapat mengambil elemen halus dari suara dan pendaftaran audio spesifik yang membantunya membuat rekreasi yang andal dari a orang yang berbicara hukuman apa pun Itu diumpankan untuk itu, menurut situs web teknik yang menarik. AE0FCC31AE342FD3A1346EBB1F342FCB
"Untuk mensintesis pidato yang dipersonalisasi (mis., TT Zero-shot), Vall-E menghasilkan token akustik yang sesuai yang dikondisikan pada token akustik dari perekaman terdaftar 3 detik dan prompt fonem, yang membatasi pembicara dan informasi konten masing-masing," Tim menjelaskan dalam makalah mereka. "Akhirnya, token akustik yang dihasilkan digunakan untuk mensintesis gelombang akhir dengan dekoder codec saraf yang sesuai."
TERKAIT: Untuk informasi terbaru, daftar untuk buletin harian kami .
Tim menggunakan lebih dari 60.000 jam pidato yang direkam untuk melatih AI baru.
Untuk mengembangkan model baru, tim mengatakan mereka menggunakan sekitar 60.000 jam pidato yang direkam dalam bahasa Inggris dari lebih dari 7.000 pembicara individu dari perpustakaan audio yang dikumpulkan oleh meta yang dikenal sebagai Librilight. Dalam kebanyakan kasus, rekaman ditarik dari pembacaan buku audio domain publik Disimpan di Librivox, ARS Technica melaporkan. Dalam uji cobanya, tim mengatakan bahwa Vall-E membutuhkan suara dalam sampel tiga detik untuk sangat mirip dengan salah satu suara dari data pelatihannya untuk menghasilkan hasil yang meyakinkan.
Tim sekarang menampilkan pekerjaan mereka memposting contoh spesifik perangkat lunak yang beraksi di halaman GitHub. Masing-masing memberikan klip tiga detik dari suara pembaca pembicaraan teks acak dan "kebenaran darat," yang merupakan contoh rekaman dari pembicara yang membaca kalimat yang akan digunakan untuk perbandingan. Mereka kemudian memberikan rekaman "baseline" untuk menunjukkan bagaimana perangkat lunak TTS khas akan menghasilkan audio lisan dan versi "Vall-E" dari rekaman untuk dibandingkan dengan dua sebelumnya.
Meskipun hasilnya tidak sepenuhnya sempurna, mereka memang menunjukkan beberapa contoh yang sangat meyakinkan di mana pidato yang dihasilkan mesin terdengar sangat manusiawi. Para peneliti juga menambahkan bahwa selain meniru infleksi dan emosi, perangkat lunak juga dapat mereplikasi lingkungan di mana audio dasar dicatat - misalnya, membuatnya terdengar seperti seseorang berbicara di luar ruangan, di ruang yang bergema, atau pada panggilan telepon.
Sejauh ini, Microsoft belum merilis program untuk orang lain untuk menguji atau bereksperimen.
Tim peneliti menyimpulkan makalah mereka dengan mengatakan bahwa mereka berencana untuk meningkatkan jumlah data pelatihan untuk membantu model meningkatkan gaya berbicara dan menjadi lebih baik dalam meniru suara manusia. Tetapi untuk saat ini, Microsoft juga menahan diri dari membuat perangkat lunak baru tersedia untuk pengembang atau masyarakat umum untuk menguji - terutama karena kemampuannya untuk menipu orang atau digunakan untuk tujuan jahat.
"Karena Vall-E dapat mensintesis pidato yang mempertahankan identitas pembicara, itu dapat membawa risiko potensial dalam penyalahgunaan model, seperti spoofing identifikasi suara atau menyamar sebagai pembicara tertentu," tulis penulis dalam kesimpulan mereka. "Untuk mengurangi risiko seperti itu, dimungkinkan untuk membangun model deteksi untuk membedakan apakah klip audio disintesis oleh Vall-E. Kami juga akan menerapkan prinsip-prinsip Microsoft AI ketika mengembangkan lebih lanjut model."