La nueva y espeluznante IA puede simular tu voz perfectamente después de escucharla durante 3 segundos
Es tan bueno que sus creadores lo admitan "pueden llevar riesgos potenciales en el mal uso".
La tecnología moderna ha revolucionado la forma en que hacemos las cosas. Incluso la versión más básica del teléfonos inteligentes en los bolsillos de la mayoría de las personas O los dispositivos de casa inteligentes en nuestras salas de estar tienen una cantidad impresionante de capacidades, especialmente cuando considera que puede controlarlos simplemente hablando, gracias a la inteligencia artificial (IA). Pero a pesar de que las computadoras han progresado para ayudar a facilitarnos la vida, también están entrando en un nuevo territorio a medida que pueden imitar el comportamiento humano e incluso pensar por sí mismos. Y ahora, una nueva forma espeluznante de IA puede simular su voz perfectamente incluso después de escucharla durante solo tres segundos. Siga leyendo para obtener más información sobre la innovadora tecnología.
Lea esto a continuación: Nunca cargue su teléfono Android de esta manera, dicen los expertos .
Microsoft ha desarrollado un nuevo tipo de IA que puede simular sin problemas su voz.
Todos hemos dependido de las máquinas para facilitar nuestra vida cotidiana de una forma u otra. Pero, ¿qué pasa si una computadora podría intervenir y imita la forma en que hablas sin que otros se noten?
La semana pasada, los investigadores de Microsoft anunciaron que habían desarrollado una nueva forma de IA de texto a voz que han denominado Vall-E, informa ARS Technica. La tecnología puede simular la voz de una persona utilizando un clip de audio de tres segundos, incluso recogiendo y preservando el tono emocional del altavoz original y los sonidos acústicos del entorno en el que están grabando. El equipo dice que el modelo podría ser útil para crear vocalizaciones automáticas de texto, a pesar de que viene con riesgos potenciales de engaños altamente sofisticados similares a los videos de Deepfake.
La compañía dice que la nueva tecnología se basa en un "modelo de lenguaje de códec neural".
En su papel Discutir la nueva tecnología , Microsoft Dubs Vall-e A "Modelo de lenguaje de códec de código neuronal". Lo que esto significa es que, si bien el software tradicional de texto a voz (TTS) toma palabras escritas y manipula las formas de onda para generar vocalizaciones, la IA puede recoger elementos sutiles de una voz y indicaciones de audio específicas que lo ayudan a crear una recreación confiable de un persona que habla cualquier oración Eso se le alimenta, según el sitio web, Interessing Engineering. AE0FCC31AE342FD3A1346EBB1F342FCB
"Para sintetizar el discurso personalizado (por ejemplo, TTS de disparo cero), Vall-E genera los tokens acústicos correspondientes condicionados en los tokens acústicos de la grabación inscrita de 3 segundos y el aviso de fonema, que limitan la información del altavoz y el contenido,", las ", las" El equipo explica en su artículo. "Finalmente, los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el decodificador de códec neural correspondiente".
RELACIONADO: Para obtener información más actualizada, regístrese en nuestro boletín diario .
El equipo usó más de 60,000 horas de discurso grabado para entrenar a la nueva IA.
Para desarrollar el nuevo modelo, el equipo dice que usó unas 60,000 horas de discurso grabado en inglés de más de 7,000 altavoces individuales de una biblioteca de audio reunida por meta conocida como Librilight. En la mayoría de los casos, las grabaciones fueron extraídas de las lecturas de audiolibros de dominio público Almacenado en Librivox, informa ARS Technica. En sus pruebas, el equipo dijo que Vall-E necesita la voz en la muestra de tres segundos para parecerse mucho a una de las voces de sus datos de entrenamiento para producir un resultado convincente.
El equipo ahora está mostrando su trabajo por Publicar ejemplos específicos del software en acción en una página de GitHub. Cada uno proporciona un clip de tres segundos del texto aleatorio de lectura de voz de un orador y una "verdad terrestre", que es un ejemplo grabado del altavoz que lee una oración que se utilizará para la comparación. Luego proporcionan una grabación de "línea de base" para mostrar cómo el típico software TTS generaría audio hablado y una versión "Vall-E" de la grabación para comparar los dos anteriores.
Si bien los resultados no son del todo perfectos, muestran algunos ejemplos muy convincentes en los que el discurso generado suena sorprendentemente humano. Los investigadores también agregan que, además de imitar la inflexión y la emoción, el software también puede replicar el entorno en el que se registra el audio base, por ejemplo, hacer que suene como si alguien estuviera hablando al aire libre, en una habitación de eco o en una llamada telefónica.
Hasta ahora, Microsoft no ha lanzado el programa para que otros prueben o experimenten.
El equipo de investigación concluye su artículo diciendo que planean aumentar la cantidad de datos de capacitación para ayudar al modelo a mejorar sus estilos de habla y mejorar para imitar la voz humana. Pero por el momento, Microsoft también ha impedido que el nuevo software esté disponible para los desarrolladores o el público en general a la prueba, potencialmente debido a su capacidad de engañar a las personas o ser utilizado para fines nefastos.
"Dado que Vall-E podría sintetizar el discurso que mantiene la identidad del hablante, puede llevar riesgos potenciales en el mal uso del modelo, como la identificación de voz o suplantando a un hablante específico", escribieron los autores en su conclusión. "Para mitigar tales riesgos, es posible construir un modelo de detección para discriminar si Vall-E sintetizó un clip de audio. También pondremos en práctica los principios de Microsoft AI al desarrollar aún más los modelos".