Saltar al contenido
Activar Licencia

Tacotron 2 windows

Tacotron 2 deutsch

La conversión de texto a voz (TTS) de extremo a extremo basada en redes neuronales ha mejorado notablemente la calidad del habla sintetizada. Los métodos más conocidos (por ejemplo, Tacotron 2) suelen generar primero un mel-espectrograma a partir del texto y, a continuación, sintetizan el habla a partir del mel-espectrograma utilizando un vocoder como WaveNet. En comparación con los enfoques tradicionales concatenativos y estadísticos paramétricos, los modelos de extremo a extremo basados en redes neuronales adolecen de una velocidad de inferencia lenta, y el habla sintetizada no suele ser robusta (es decir, algunas palabras se omiten o se repiten) y carece de controlabilidad (velocidad de voz o control de prosodia). En este trabajo, proponemos una novedosa red feed-forward basada en Transformer para generar mel-espectrogramas en paralelo para TTS. En concreto, extraemos alineaciones de atención a partir de un modelo maestro basado en codificador-decodificador para la predicción de la duración de los fonemas, que es utilizado por un regulador de longitud para expandir la secuencia de fonemas de origen de modo que coincida con la longitud de la secuencia del mel-espectrograma de destino para la generación paralela de mel-espectrogramas. Los experimentos con el conjunto de datos LJSpeech demuestran que nuestro modelo paralelo iguala a los modelos autorregresivos en cuanto a calidad del habla, casi elimina el problema de la omisión y repetición de palabras en casos especialmente difíciles, y puede ajustar la velocidad de la voz sin problemas. Y lo que es más importante, en comparación con el Transformer TTS autorregresivo, nuestro modelo acelera la generación del mel-espectrograma en 270 veces y la síntesis del habla de extremo a extremo en 38 veces. Por eso lo llamamos FastSpeech.

Ejemplos de Tacotron 2

En los últimos años, el concepto de síntesis de texto a voz de extremo a extremo ha empezado a atraer la atención de los investigadores. La motivación es sencilla: sustituir los módulos individuales sobre los que tradicionalmente se construía el TTS por una potente red neuronal profunda simplifica la arquitectura de todo el sistema. Sin embargo, ¿hasta qué punto son capaces estos sistemas integrales de hacer frente a tareas clásicas como G2P, normalización de textos, desambiguación de homógrafos y otras cuestiones inseparablemente ligadas a los sistemas de texto a voz?

En el presente artículo, exploramos tres implementaciones libres de los sintetizadores de voz basados en Tacotron 2, centrándonos en sus capacidades para transformar el texto de entrada en una pronunciación correcta, no sólo en términos de conversión G2P, sino también en el manejo de cuestiones relacionadas con el análisis del texto y los patrones prosódicos utilizados.

volver a la referencia Kalchbrenner, N., et al.: Efficient neural audio synthesis. En: Dy, J., Krause, A. (eds.) Proceedings of the 35th International Conference on Machine Learning. Proceedings of Machine Learning Research, vol. 80, pp. 2410-2419. PMLR (2018)

Tacotrón2

La conversión de texto a voz (TTS) basada en redes neuronales ha progresado rápidamente en los últimos años. Los modelos de TTS neuronales anteriores (por ejemplo, Tacotron 2) generan primero mel-espectrogramas autorregresivos a partir del texto y luego sintetizan el habla a partir de los mel-espectrogramas generados utilizando un vocoder entrenado por separado. Suelen adolecer de lentitud en la inferencia, robustez (omisión y repetición de palabras) y problemas de controlabilidad. En los últimos años, se han diseñado modelos TTS no autorregresivos para resolver estos problemas, y FastSpeech es uno de los modelos más exitosos.

El entrenamiento de FastSpeech se basa en un modelo autorregresivo maestro que proporciona la duración de cada fonema para entrenar un predictor de duración, y también proporciona los mel-espectrogramas generados para la destilación de conocimientos. Aunque FastSpeech puede generar mel-espectrogramas a una velocidad extremadamente rápida y con una robustez y controlabilidad mejoradas, y puede lograr una calidad de voz comparable a la de los modelos autorregresivos anteriores, aún presenta algunas desventajas:

Tacotron 2 descargar

La síntesis de texto a voz es lo que se conoce como un problema de mapeo de uno a muchos. Dado cualquier fragmento de texto, pueden generarse múltiples voces con diferentes prosodias (entonación, tono, acento y ritmo). Incluso los modelos más sofisticados, como Tacotron 2, son propensos a cometer errores como balbucear, cortar el habla y repetir u omitir palabras. Una forma de solucionar esto es aumentar los modelos incorporando representaciones que capturen los factores latentes del habla. Estas representaciones las puede extraer un codificador que tome como entrada espectrogramas reales (una representación visual de las frecuencias del habla a lo largo del tiempo); este es el planteamiento de Parallel Tacotron.

Para evaluar el rendimiento de Parallel Tacotron, los investigadores pidieron a revisores humanos que analizaran 1.000 frases sintetizadas por 10 hablantes de inglés de EE.UU. (5 hombres y 5 mujeres) de forma rotatoria (100 frases por hablante). Aunque se puede mejorar, los resultados sugieren que Parallel Tacotron “lo hizo bien” en comparación con el habla humana. Además, Parallel Tacotron fue unas 13 veces más rápido que Tacotron 2.