Texto chino a voz

En comparación con el habla de los otros idiomas, la aplicación a la lengua china implica una serie de dificultades adicionales relacionadas con la determinación de la pronunciación correcta de los caracteres chinos, que depende en gran medida del contexto; la complejidad de la prosodia, que es esencial para transmitir el significado correcto; y en algunos casos a la falta de una referencia clara también entre la lengua materna algunos fonemas La síntesis del habla china es la aplicación de técnicas de síntesis del habla al idioma chino, o más propiamente al mandarín estándar. Las características de la lengua china, de hecho, debido a la fuerte dependencia del contexto, presentan una serie de ambigüedades que hacen que la operación de identificar la correcta representación de un carácter escrito sea muy compleja, ya sea a partir de la escritura ideográfica o de una forma transliterada como el pinyin. Por ejemplo, el carácter 凉 Se puede pronunciar tanto liáng (cool) como liàng (cool) y la elección correcta depende únicamente del contexto semántico. Aún mayores son las dificultades de una síntesis que parte del pinyin, ya que casi siempre la misma transliteración puede corresponder a muchos significados diferentes, incluso en este caso estrictamente dependiente solo del contexto. A esto hay que añadir las variantes de pronunciación relacionadas con la posición de la palabra en el contexto de la oración y la ligadura eufónica entre palabras o sílabas, que no encuentra expresión explícita en la forma escrita.

La empresa iflytek (ex Ifly Info Tech) publicó en 2005 un documento en el contexto del W3C en el que, a partir del Speech Synthesis Markup Language se deriva de un dialecto llamado Chinese Speech Synthesis Markup Language (CSSML) que proporciona el marcado específico para formalizar la pronunciación de los caracteres y añadir alguna información de la prosodia. El sintetizador realizado con este método utiliza la técnica de síntesis basada en un corpus pregrabado de samples (palabras, secuencias de caracteres, fragmentos de frase), lo que permite una representación muy natural en la mayoría de los casos pero tiene huecos en el caso de oraciones con contenido inusual o poco común que no encuentran una coincidencia en las muestras de la base de datos. iflytek nunca ha divulgado la cantidad de datos utilizados, pero el análisis de productos comerciales que aprovechan su tecnología permite hacer algunas estimaciones. Por ejemplo, el sintetizador SpeechPlus producido por Bider tiene un tamaño de descarga de 1. 3 gigabytes, de los cuales 1. 2 se utiliza para datos relacionados con una sola voz China, almacenada en alta compresión. El sistema de síntesis de Iflytek también le permite sintetizar textos mixtos que contienen partes en inglés y chino (Por ejemplo, frases chinas que contienen palabras en inglés), con una calidad de la síntesis en inglés que iflytek define como "promedio" . Este sistema también parece depender estrictamente de los caracteres chinos y no es capaz de obtener una síntesis a partir de pinyin solo, aunque el CSSML permite al lado del pinyin con los caracteres para tratar de resolver ambigüedades de pronunciación, con resultados no siempre garantizados. El programa de enseñanza de Gradint incluye una utilidad que intenta convertir un pinyin arbitrario en un CSSML que debe ser pronunciado correctamente por SpeechPlus, seleccionando los caracteres chinos que mejor representan la pronunciación, también teniendo en cuenta las especificidades de SpeechPlus. Sin embargo, las Advertencias sobre esta utilidad también recomiendan que revise sistemáticamente todas las frases sintetizadas y use un sintetizador alternativo en caso de que la pronunciación no sea correcta: de hecho, es posible que el audio resultante contenga Sílabas completamente diferentes o inesperadas en comparación con el pinyin utilizado en la entrada. El proyecto de sintetizador experimental desarrollado por la Universidad de Tsinghua, el SinoSonic, también se basa en un corpus, con una cantidad de datos igual a 800 megabytes para la voz de Harbin. Este proyecto nunca estuvo disponible para su descarga. El software KeyTip Putonghua Reader, producido por CJKware, toma un enfoque más simple, basado en la grabación de 10000 Términos de vocabulario multi-silábico más grabaciones mono-silábicas en seis prosodias diferentes (los cuatro tonos típicos de pinyin más un tono neutro y una variante del 3er tono que se utilizará para el final de la oración). Con este enfoque, la cantidad total de datos utilizados se reduce a 120 megabytes. Las muestras se pueden encadenar libremente en cualquier combinación, pero los sonidos del habla resultantes se ven forzados, como es típico para la síntesis de muestras unitarias, con un efecto negativo en la salida general, y la velocidad y la expresión también se fijan. Sin embargo, basado en ejemplos de pronunciación elemental, el sistema es capaz de hacer que las frases y expresiones menos comunes o particularmente complejas sean aceptables. Las entradas "Lily" y "Wang" del software de síntesis sapi5 producido por NeoSpeech utilizan una síntesis concatenativa basada en unos 500MB de datos registrados en combinación con otras técnicas no documentadas. El software es capaz en la mayoría de los casos de sintetizar de forma fiable incluso frases inusuales, siempre y cuando se añaden al diccionario de manera oportuna y no tiene los efectos de la rigidez y la combinación mecánica de sonidos típicos de los sistemas con síntesis concatenativa simple. El elemento "MeiLing" del software Realspeak producido por Nuance (anteriormente ScanSoft) tiene propiedades similares, pero tiene un tamaño de descarga mucho menor (42. 7 MB). Sin embargo, debido a algunos errores en el programa, es muy difícil obtener una síntesis confiable a partir de texto Pinyin o zhuyin. Entre estas dos soluciones, la más confiable para la síntesis de oraciones particularmente complejas o inusuales parece ser la voz de lirio, aunque no es del todo perfecta. De hecho, algunas oraciones se sintetizan correctamente si empiezas con caracteres chinos, pero no si empiezas con pinyin. Por ejemplo, 用出来 se representa correctamente como yong4 - chu5 - lai5 si comienza desde caracteres, pero se pronuncia yong4 - chu1 - lai5 (término más utilizado) si comienza desde pinyin. Del mismo modo sucede para 转来转去 (zhuan3-lai2 - zhuan3 - qu4) que, si uno comienza desde el pinyin, representa el primer Z como zhuai en lugar de Zhuan, mientras que a partir de los caracteres la pronunciación es completamente correcta. Este comportamiento es similar al de algunos sistemas de síntesis de voz para el idioma inglés, que tienen una calidad inferior cuando la síntesis se lleva a cabo a partir de información de Pronunciación en lugar de a partir de un texto. Esto puede indicar que la información de pronunciación aceptada como fuente no coincide con el formato interno de pronunciación realmente utilizado. Por ejemplo, tanto la voz Lily como la voz Meiling cometen una serie de errores comunes (lo que puede indicar que, a pesar de la diferencia macroscópica en la cantidad de datos utilizados, ambos software pueden compartir las técnicas complementarias indocumentadas): Du (shou3 - DU1) DU1 tiene un tono demasiado bajo; BI (you2-bian1) bian1 tiene un tono demasiado bajo; 天 the (tian1-zhen1) las dos sílabas se pronuncian con un efecto típico del tercer tono mientras que deben presentar el mismo tono; Tang (tang2-niao4-bing4) la n es muy poco clara Este aspecto no es del todo despreciable, ya que no siempre es conveniente utilizar como fuente solo los caracteres de los que a menudo es necesario especificar también la pronunciación diferente. Estas entradas también tienen otras inexactitudes no relacionadas con el formato de entrada. Esto sucede tanto con una entrada en caracteres chinos como con pinyin. Los tres primeros errores tampoco ocurren cuando la palabra está dentro de una oración más larga, sino solo cuando está aislada (situación que ocurre, por ejemplo, en los ejercicios de aprendizaje de idiomas. En algunos casos, a través de Lily es posible corregir oraciones generadas incorrectamente a partir de pinyin, separando los términos más largos en palabras separadas, pero este método no funciona en los casos de error mencionados. Ekho es un proyecto de síntesis de Voz chino de código abierto basado en la concatenación de muestras silábicas. En la actualidad, es compatible con el idioma cantonés, chino estándar y coreano. Los tonos de algunas sílabas para mandarín Estándar se han normalizado para el software de síntesis Praat. La aplicación Gradint "resumen de entradas parciales" también utiliza parte de este proyecto. Sin embargo, no hay desarrollos en otros proyectos importantes de síntesis de voz de código abierto, como el proyecto mbrola. Tampoco hay proyectos conocidos para sintetizar el idioma chino a partir de rasgos del habla humana, en el equivalente del habla GNU.

Algunos ejemplos de demostración de programas de texto a voz chinos, con funcionalidad limitada o muy limitada, están disponibles en Internet. NeoSpeech proporciona una página para probar las diversas entradas de resumen, pero no permite que se use pinyin para el texto de prueba. iFlyTek ha planeado una página de demostración en el sitio global, sin embargo, el programa está muy a menudo fuera de servicio y no le permite introducir Variantes de pronunciación basadas en CSSML de todos modos. iFlyTek también proporciona otras páginas de demostración en sitios locales (la filial estadounidense y China) que le permiten probar CSSML para el control de la pronunciación (Configuración avanzada del modo de lectura), pero la interfaz de usuario es muy accesible porque no contiene una tecla para ingresar, pero el enlace Voz De Mujer (voz femenina) o voz de hombre (voz masculina) para activar después de haber insertado el texto para tratar de resumir. Hasta 1997, Bell Labs también proporcionó una página web de demostración para la síntesis de voz estándar en mandarín. La página sigue siendo accesible, pero el resumen de demostración ya no funciona, ya que los enlaces y contactos reportados en el sitio ya no están activos. La técnica utilizada por Bell Labs se describe en una monografía titulada Multilingual Text-to-Speech Synthesis: The Bell Labs Approach y más información está disponible en el sitio web del ex líder del proyecto Chilin Shih, ahora empleado en la Universidad de Illinois.

Todos los productos de texto a voz en Chino descritos solo están disponibles para la Plataforma Windows. El programa de aprendizaje desarrollado por Gradint, sin embargo, le permite exportar datos keytip y SpeechPlus a otros sistemas operativos, tanto en modo nativo como a través de la emulación de Windows a través de WINE. Texto a voz en chino estaba disponible en computadoras Apple con Mac OS, hasta la versión 9. El sistema operativo macOS inicialmente ya no soportaba texto a voz chino, que fue reintroducido como una herramienta de accesibilidad estándar a partir de la versión Mac OS X Leopard.

Síntesis de voz

SSML

El speech Synthesis Markup Language (SSML) es un lenguaje de marcado basado en XML y orientado a los sistemas de conversión de texto a voz, para controlar y opt...

Lenguajes de marcado

Estándar de W3C

Formatos de archivo

Esta página se basa en el artículo de Wikipedia: Fuente, Autores, Licencia Creative Commons Reconocimiento-CompartirIgual.
This page is based on the Wikipedia article: Source, Authors, Creative Commons Attribution-ShareAlike License.
contactos
Política de privacidad , Descargos de responsabilidad