Êtes-vous intéressé par eux OFFRES? Économisez avec nos coupons sur WHATSAPP o TELEGRAM!

Microsoft VALL-E imitera notre voix après seulement 3 secondes de conversation

En seulement 3 secondes, une IA qui ne vous a jamais entendu parler peut parfaitement imiter votre voix. Il s'agit de la dernière réalisation de l'intelligence artificielle de Microsoft - le modèle de synthèse vocale VALL-E, qui peut copier la voix de n'importe qui à volonté avec seulement 3 secondes de parole.

Microsoft VALL-E imitera notre voix après seulement 3 secondes de conversation

Il provient de DALL E, mais se spécialise dans le domaine audio, et l'effet de synthèse vocale est devenu populaire après sa mise en ligne.

Certains utilisateurs ont déclaré que si VALL·E et ChatGPT sont combinés, le résultat sera incroyable. Pour d'autres, il semble que le jour où il sera possible de passer des appels vidéo avec l'IA n'est pas loin. Il y a même ceux qui plaisantent en disant qu'après que l'IA s'est occupée des écrivains et des peintres, viennent ensuite les acteurs de la voix.

Mais comment VALL·E imite-t-il un son « inouï » en 3 secondes ?

VALL-E analyse l'audio avec des modèles de langage. Il synthétise la parole en se basant sur des sons "inédits" de l'IA, c'est-à-dire un apprentissage à échantillon zéro.

La solution traditionnelle de synthèse vocale est essentiellement un mode de pré-entraînement avec un réglage fin. S'il est utilisé dans un scénario d'échantillon zéro, il en résultera une similitude et un caractère naturel médiocres de la parole générée.

Sur cette base, VALL-E est sorti de nulle part, proposant une idée différente du modèle vocal traditionnel.

Par rapport au modèle traditionnel qui utilise le spectre Mel pour extraire les caractéristiques, VALL-E prend directement la synthèse vocale comme une tâche du modèle de langage, la première est continue et la seconde est discrète.

En particulier, le processus traditionnel de synthèse vocale est souvent le chemin du « phonème → mel-spectrogramme (mel-spectrogramme) → forme d'onde ».

Mais VALL -E a transformé ce processus en "phonème→codage audio discret→forme d'onde":

En termes de conception de modèle, VALL-E est également similaire à VQVAE. Quantifie l'audio en une série de jetons discrets. Le premier quantificateur est responsable de la capture du contenu audio et des caractéristiques d'identité du locuteur, tandis que les seconds quantificateurs sont responsables du raffinement du signal. ce qui semble plus naturel :

Puis conditionné par le texte et l'invite audio de 3 secondes, il produit de manière autorégressive un codage audio discret :

Mais pas seulement cela, en plus de la synthèse vocale sans échantillon, VALL-E prend également en charge l'édition vocale et la création de contenu vocal combinées avec GPT-3.

Le bruit de fond ambiant peut également être restauré

A en juger par les effets vocaux synthétisés, VALL-E peut restituer plus que le timbre du haut-parleur.

Non seulement la tonalité est imitée sur place, mais elle prend également en charge une variété de vitesses de parole différentes. Par exemple, ce sont deux vitesses de parole différentes fournies par VALL-E lorsque la même phrase est prononcée deux fois, mais la similitude tonale est toujours élevée :

Dans le même temps, le son ambiant de fond de l'autre partie peut également être restauré avec précision.

De plus, VALL-E peut imiter une variété d'émotions du locuteur, y compris plusieurs types tels que la colère, la somnolence, la neutralité, la joie et la nausée.

Il convient de mentionner que l'ensemble de données utilisé pour la formation VALL·E n'est pas particulièrement important.

Comparé à Whisper d'OpenAI, qui a nécessité 680.000 7.000 heures de formation audio et n'a utilisé que plus de 60.000 XNUMX haut-parleurs et XNUMX XNUMX heures de formation, VALL-E a dépassé la synthèse vocale pré-formée en termes de similitude avec la synthèse vocale Model YourTTS.

De plus, YourTTS a entendu les voix de 97 locuteurs sur 108 à l'avance pendant la formation, mais il est toujours en deçà de VALL-E dans le test réel.

Quant aux domaines dans lesquels il peut être appliqué :

Non seulement il peut être utilisé pour imiter votre propre voix, par exemple pour aider les personnes handicapées à terminer une conversation avec d'autres, mais vous pouvez également l'utiliser pour parler à votre place lorsque vous ne le souhaitez pas. Bien sûr, il peut également être utilisé pour l'enregistrement de livres audio.

Cependant, VALL-E n'est pas encore open source et vous devrez peut-être attendre un peu plus longtemps pour l'essayer.

En offre sur Amazon

439,99€
disponible
3 d'occasion à partir de 271,47 €
au 19er avril 2024 11:01
Amazon.it
Dernière mise à jour le 19 avril 2024 11:01
Pierpaolo Figuccia
Pierpaolo Figuccia

Nerd, passionné de technologie, de photographie et vidéaste. Et bien sûr j'adore les produits Xiaomi !

Souscrire
notifier
invité

0 commentaires
Commentaires en ligne
Voir tous les commentaires
XiaomiToday.it
Logo