Así es Vall-E, la IA generadora de audio capaz de imitar voces en la que está trabajando Microsoft

Microsoft está subiendo su apuesta por la IA al desarrollar Vall-E, un modelo capaz de imitar voces humanas recreando emociones.
Vall-e
11 de enero, de 2023
Copiar enlace

Microsoft se encuentra inmersa en el proceso de creación de una nueva herramienta de IA capaz de transformar texto en voz e imitar audios. Esta ha sido bautizada como Vall-E y se basa en un modelo de lenguaje TTS (text to speach).

Que Microsoft está subiendo su apuesta por la inteligencia artificial es algo de sobra conocido, el gigante tecnológico ya ha integrado modelos como GPT-3 o Dalle-2 en servicios como Azure. Con este nuevo proyecto estaría dando un paso más a la vez que completa las capacidades de sus productos: texto, imagen y, ahora, voz.

Cómo funciona Vall-E

Vall-E es un modelo de lenguaje para la síntesis de texto a voz que también puede sintetizar grabaciones de voz e imitarlas. Ha sido entrenado con 60.000 horas de habla en inglés y, como afirman desde Microsoft, supera a proyectos anteriores al presentar una capacidad de aprendizaje más veloz y mayor. Ya que puede imitar la voz de una grabación de tan solo tres segundos, manteniendo el tono y la cadencia del locutor original.

Tal y como explican desde Microsoft, «Vall-E genera los códigos discretos de códec de audio basados en indicaciones de fonemas y códigos acústicos, correspondientes al contenido de destino y la voz del hablante«. Sumado a esto, «Vall-E podría preservar la emoción del hablante y el entorno acústico del mensaje en síntesis«.

En resumidas cuentas, este modelo es capaz de recoger la información del texto y del audio y transformarla en una locución de voz que exprese lo que se dice, pero que, además, mantenga el contexto y reproduzca tintes emocionales. De este modo, Vall-E puede generar voces artificiales que expresen alegría, enfado, tristeza, cansancio, etc.

descripcion general del modelo vall-e
Descripcion general del modelo vall-e / Fuente: Microsoft

Por último, Microsoft ha compartido en GitHub una demo de esta herramienta, en la que no solo arroja información acerca de su funcionamiento, sino que también presenta pruebas de audio que demuestran sus capacidades. Te animamos a que le eches un vistazo mientras esperamos ansiosos a tener nuevas noticias acerca del desarrollo de esta prometedora IA.

Sam, uno de los predecesores de Vall-E

Como comentábamos, Vall-E no es el primer proyecto relacionado con el modelo de lenguaje TTS que Microsoft ha desarrollado. Hace más de veinte años, en 1998, la empresa tecnológica presentaba Sam (Speech Articulation Module), una herramienta que permitía reconocimiento y síntesis de voz incluida en Windows XP. Además, este sintetizador también tenía la capacidad de, al pasar texto a voz, crear sonidos naturales que encajasen con la entonación y la emoción de las voces humanas.

Imagen generada en Dalle-2

 

Otros artículos de

Publicado por

Content Manager en Marketing4eCommerce
"Content Manager" en Marketing4eCommerce, que traducido quiere decir: redactora, revisora, y fan absoluta de generar imágenes con IA.

Suscríbete a M4C

Únete a nuestro canal de Whatsapp

¡Todo lo que necesitas saber!

Apúntate a nuestra newsletter y recibe gratis en tu correo nuestros mejores artículos sobre eCommerce y marketing digital.