Une nouvelle IA effrayante peut simuler votre voix parfaitement après l'avoir entendue pendant 3 secondes

C'est tellement bon que ses créateurs admettent qu'il "peut comporter des risques potentiels dans une mauvaise utilisation".


La technologie moderne a révolutionné la façon dont nous faisons avancer les choses. Même la version la plus élémentaire de la smartphones dans les poches de la plupart des gens Ou les appareils de maison intelligente dans nos salons ont une quantité impressionnante de capacités, surtout lorsque vous considérez que vous pouvez les contrôler simplement en parlant, grâce à l'intelligence artificielle (IA). Mais même si les ordinateurs ont progressé pour nous faciliter notre vie, ils entrent également dans un nouveau territoire à mesure qu'ils deviennent capables d'imiter le comportement humain et même de penser par eux-mêmes. Et maintenant, une nouvelle forme effrayante d'IA peut simuler votre voix parfaitement même après l'avoir entendue pendant seulement trois secondes. Lisez la suite pour en savoir plus sur la technologie révolutionnaire.

Lisez ceci ensuite: Ne facturez jamais votre téléphone Android de cette façon, disent les experts .

Microsoft a développé un nouveau type d'IA qui peut simuler parfaitement votre voix.

A young woman recording her voice on a computer using a microphone and headphones
Shutterstock / Soloviova Liudmyla

Nous nous sommes tous comptés sur des machines pour faciliter notre vie quotidienne d'une manière ou d'une autre. Mais que faire si un ordinateur pouvait intervenir et imitez la façon dont vous parlez sans que d'autres ne remarquent même?

La semaine dernière, des chercheurs de Microsoft ont annoncé qu'ils avaient développé une nouvelle forme d'IA de texte vocale qu'ils ont surnommé Vall-E, rapporte ARS Technica. La technologie peut simuler la voix d'une personne en utilisant un clip audio de trois secondes, même en ramassant et en préservant le ton émotionnel du haut-parleur d'origine et les sons acoustiques de l'environnement dans lequel ils enregistrent. L'équipe affirme que le modèle pourrait être pratique pour créer des vocalisations automatiques de texte, même si elle comporte des risques potentiels de dupes hautement sophistiqués similaires aux vidéos DeepFake.

La société affirme que la nouvelle technologie est basée sur un «modèle de langage de codec neural».

A man sitting on his computer while talking to his phone's virtual assistant
Shutterstock / Fizkes

Dans son article Discuter de la nouvelle technologie , Microsoft Dubs Vall-e un «modèle de langage de codec neural». Cela signifie que si le logiciel traditionnel de texte à dispection (TTS) prend des mots écrits et manipule les formes d'onde pour générer des vocalisations, l'IA peut ramasser des éléments subtils d'une voix et des invites audio spécifiques qui l'aident à créer une récréation fiable d'un personne qui parle de toute peine Cela lui est nourri, selon le site Web Intéressant Engineering. ae0fcc31ae342fd3a1346ebb1f342fcb

"Pour synthétiser la parole personnalisée (par exemple, TTS zéro-shot), Vall-E génère les jetons acoustiques correspondants conditionnés sur les jetons acoustiques de l'enregistrement inscrit en 3 secondes et l'invite de phonème, qui contraignent respectivement les informations du haut-parleur et le contenu", l'information " L'équipe explique dans leur journal. "Enfin, les jetons acoustiques générés sont utilisés pour synthétiser la forme d'onde finale avec le décodeur de codec neural correspondant."

EN RELATION: Pour plus d'informations à jour, inscrivez-vous à notre newsletter quotidien .

L'équipe a utilisé plus de 60 000 heures de discours enregistré pour former la nouvelle IA.

author writing on computer
Michael Julius Photos / Shutterstock

Pour développer le nouveau modèle, l'équipe a déclaré qu'elle a utilisé environ 60 000 heures de discours enregistré en anglais de plus de 7 000 conférenciers individuels d'une bibliothèque audio assemblée par Meta connu sous le nom de LibriLight. Dans la plupart des cas, les enregistrements ont été tirés des lectures de livres audio du domaine public stocké sur Librivox, rapporte ARS Technica. Dans ses essais, l'équipe a déclaré que Vall-E avait besoin de la voix dans l'échantillon de trois secondes pour ressembler étroitement à l'une des voix de ses données de formation pour produire un résultat convaincant.

L'équipe présente maintenant son travail par Publier des exemples spécifiques du logiciel en action sur une page GitHub. Chacun fournit un clip de trois secondes de la voix d'un haut-parleur lisant le texte aléatoire et une «vérité au sol», qui est un exemple enregistré de l'orateur lisant une phrase à utiliser à titre de comparaison. Ils fournissent ensuite un enregistrement "de base" pour montrer comment le logiciel TTS typique générerait un son parlé et une version "Vall-E" de l'enregistrement à titre de comparaison avec les deux précédents.

Bien que les résultats ne soient pas entièrement parfaits, ils présentent des exemples très convaincants où la parole générée par la machine semble choquante humaine. Les chercheurs ajoutent également qu'en plus d'imiter l'inflexion et l'émotion, le logiciel peut également reproduire l'environnement dans lequel l'audio de base est enregistré - par exemple, ce qui donne l'impression que quelqu'un parle à l'extérieur, dans une pièce en écho ou sur un appel téléphonique.

Jusqu'à présent, Microsoft n'a pas publié le programme pour que d'autres puissent tester ou expérimenter.

hands typing on a laptop
istock

L'équipe de recherche conclut son article en disant qu'ils prévoyaient d'augmenter la quantité de données de formation pour aider le modèle à améliorer ses styles de parole et à s'améliorer pour imiter la voix humaine. Mais pour le moment, Microsoft a également empêché de rendre le nouveau logiciel disponible pour les développeurs ou le grand public à tester, en raison de sa capacité à tromper les gens ou à être utilisé à des fins néfastes.

"Étant donné que Vall-E pourrait synthétiser la parole qui maintient l'identité du locuteur, il peut comporter des risques potentiels dans une mauvaise utilisation du modèle, tel que l'identification de l'identification vocale ou l'identité d'un orateur spécifique", ont écrit les auteurs dans leur conclusion. "Pour atténuer ces risques, il est possible de construire un modèle de détection pour discriminer si un clip audio a été synthétisé par Vall-E. Nous mettrons également les principes de Microsoft AI en pratique lors du développement des modèles."


Les augmentations alimentaires Intoxication dans l'été
Les augmentations alimentaires Intoxication dans l'été
15 signes que vous êtes un "supertasker"
15 signes que vous êtes un "supertasker"
Disney princesses comme de vraies filles
Disney princesses comme de vraies filles