Gruselige neue KI kann Ihre Stimme perfekt simulieren, nachdem Sie sie 3 Sekunden lang gehört haben

Es ist so gut, dass seine Schöpfer zugeben, dass es "potenzielle Risiken im Missbrauch mit sich bringen kann".


Die moderne Technologie hat die Art und Weise revolutioniert, wie wir Dinge erledigen. Auch die grundlegendste Version der Smartphones in den Taschen der meisten Menschen Oder Smart Home -Geräte in unseren Wohnzimmern haben eine beeindruckende Menge an Fähigkeiten - insbesondere wenn Sie bedenken, dass Sie sie dank künstlicher Intelligenz (KI) einfach durch Reden kontrollieren können. Aber selbst wenn Computer vorangebracht sind, um unser Leben zu erleichtern, gehen sie auch in Neuland ein, da sie in der Lage sind, das menschliche Verhalten nachzuahmen und sogar für sich selbst zu denken. Und jetzt kann eine neue gruselige Form von KI Ihre Stimme perfekt simulieren, auch wenn sie sie nur drei Sekunden lang gehört hat. Lesen Sie weiter, um mehr über die bahnbrechende Technologie zu erfahren.

Lesen Sie dies als nächstes: Laden Sie Ihr Android -Telefon niemals so auf, sagen Experten, sagen Experten .

Microsoft hat eine neue Art von KI entwickelt, die Ihre Stimme fehlerfrei simulieren kann.

A young woman recording her voice on a computer using a microphone and headphones
Shutterstock / Soloviova liudmyla

Wir haben uns alle auf die Maschinen verlassen, um unser tägliches Leben auf die eine oder andere Weise einfacher zu machen. Aber was wäre, wenn ein Computer eintreten könnte und ahne nach, wie du sprichst Ohne andere merkten überhaupt?

Letzte Woche gaben die Forscher von Microsoft bekannt, dass sie eine neue Form von Text-to-Speech-KI entwickelt hatten, die sie als Vall-E-Berichte als Vall-E genannt haben. Die Technologie kann die Stimme einer Person simulieren, indem sie einen Drei-Sekunden-Audioclip verwenden, sogar den emotionalen Ton des ursprünglichen Lautsprechers und die akustischen Klänge der Umgebung, in der sie aufnehmen, aufnehmen und erhalten. Das Team sagt, dass das Modell nützlich sein könnte, um automatische Textvokalisationen zu erstellen - obwohl es mit potenziellen Risiken hoch entwickelter Dupes ähnlich wie bei DeepFake -Videos ausgestattet ist.

Laut dem Unternehmen basiert die neue Technologie auf einem "neuronalen Codec -Sprachmodell".

A man sitting on his computer while talking to his phone's virtual assistant
Shutterstock / Fizkes

In seiner Zeitung Diskussion der neuen Technologie , Microsoft Dubs Vall-e Ein "neuronales Codec-Sprachmodell". Was dies bedeutet, ist, dass die Software für herkömmliche Text-zu-Sprache (TTS) geschriebene Wörter nimmt und Wellenformen manipuliert, um Vokalisationen zu erzeugen, die KI jedoch subtile Elemente einer Stimme und spezifische Audioaufforderungen aufnehmen kann, die dazu beitragen, eine zuverlässige Erholung von a zu erstellen. Person, die einen Satz spricht Das ist laut der Website interessanter Ingenieurwesen dem Website zugefügt. AE0FCC31AE342FD3A1346EBB1F342FCB

"Um personalisierte Sprache (z. B. TTS Null-Shot) zu synthetisieren, erzeugt Vall-E die entsprechenden akustischen Token, die auf den akustischen Token der 3-Sekunden-Aufzeichnung und der Phonemaufforderung, die den Sprecher und die Inhaltsinformationen einschränken", die auf den 3-Sekunden eingeschriebenen Token konditioniert, die die Informationen des Sprechers bzw. des Inhaltsinformationen einschränken " Team erklärt in ihrer Zeitung. "Schließlich werden die erzeugten akustischen Token verwendet, um die endgültige Wellenform mit dem entsprechenden neuralen Codec -Decoder zu synthetisieren."

VERBUNDEN: Weitere Informationen finden Sie in unserem Daily Newsletter .

Das Team nutzte über 60.000 Stunden aufgezeichnete Rede, um die neue KI zu trainieren.

author writing on computer
Michael Julius Fotos / Shutterstock

Um das neue Modell zu entwickeln, nutzte das Team von mehr als 7.000 Einzelrednern aus einer von Meta namens Librilight zusammengestellten Audiobibliothek etwa 60.000 Stunden aufgezeichnet. In den meisten Fällen wurden Aufnahmen aus den Lesungen von abgerufen Hörbücher für öffentliche Domänen ARS Technica berichtet auf Librivox und berichtet. In seinen Versuchen sagte das Team, dass Vall-E die Stimme in der Drei-Sekunden-Stichprobe braucht, um einer der Stimmen aus ihren Trainingsdaten sehr zu ähneln, um ein überzeugendes Ergebnis zu erzielen.

Das Team präsentiert jetzt seine Arbeit von Veröffentlichung spezifischer Beispiele der Software in Aktion auf einer Github -Seite. Jedes bietet einen dreiköpfigen Clip der Stimme eines Sprechers, der zufälligen Text liest, und eine "Grundwahrheit", die ein aufgezeichnetes Beispiel dafür ist, dass der Sprecher einen Satz liest, der zum Vergleich verwendet werden soll. Anschließend bieten sie eine "Grundlinienaufzeichnung", um anzuzeigen, wie typische TTS-Software gesprochene Audio und eine "Vall-E" -Version der Aufnahme zum Vergleich zu den beiden vorherigen beiden generieren würden.

Obwohl die Ergebnisse nicht perfekt sind, zeigen sie einige sehr überzeugende Beispiele, bei denen die maschinengenerierte Sprache schockierend menschlich klingt. Die Forscher fügen auch hinzu, dass die Software neben der Nachahmung von Beugung und Emotionen auch die Umgebung replizieren kann, in der das Basis -Audio aufgezeichnet wird - zum Beispiel so klingen, als würde jemand im Freien, in einem Echo -Raum oder telefonisch sprechen.

Bisher hat Microsoft das Programm nicht veröffentlicht, mit dem andere testen oder experimentieren können.

hands typing on a laptop
Istock

Das Forschungsteam schließt ihre Arbeit mit der Begründung, dass sie die Anzahl der Trainingsdaten erhöhen möchten, um das Modell zu verbessern, um seine Sprechstile zu verbessern und die menschliche Stimme besser nachzuahmen. Aber vorerst hat Microsoft auch davon abgehalten, die neue Software für Entwickler oder die breite Öffentlichkeit zum Testen zu machen - möglicherweise aufgrund ihrer Fähigkeit, Menschen zu wecken oder zu schändlichen Zwecken verwendet zu werden.

"Da Vall-E Sprache synthetisieren könnte, die die Lautsprecheridentität aufrechterhalten, kann es potenzielle Risiken im Missbrauch des Modells mit sich bringen, z. "Um solche Risiken zu mildern, ist es möglich, ein Erkennungsmodell zu erstellen, um zu unterscheiden, ob ein Audioclip von Vall-E synthetisiert wurde. Wir werden auch Microsoft AI-Prinzipien in die Praxis umsetzen, wenn die Modelle weiterentwickelt werden."


Vanna White vermisst "Wheel of Fortune" zum ersten Mal seit 30 Jahren - hier ist das Warum
Vanna White vermisst "Wheel of Fortune" zum ersten Mal seit 30 Jahren - hier ist das Warum
Wenn Sie diesen viel Kaffee pro Tag trinken, ist Ihr Herz in Gefahr, Studienfunde
Wenn Sie diesen viel Kaffee pro Tag trinken, ist Ihr Herz in Gefahr, Studienfunde
Die besten und schlechtesten Nahrungsmittel-Trends des Jahres
Die besten und schlechtesten Nahrungsmittel-Trends des Jahres