Control fino de texto a voz
Control avanzado de la síntesis de voz
Primeros pasos
Desactivar la normalización puede empeorar la lectura de números, fechas y URL. Ajústalos manualmente para mejores resultados.
Control de fonemas
El control de fonemas permite fijar pronunciaciones exactas. Actualmente admitimos:
- CMU Arpabet (inglés)
- Pinyin (chino)
Envuelve la pronunciación entre <|phoneme_start|> y <|phoneme_end|>. Cada etiqueta debe contener una sola palabra o carácter.
Ejemplos
Estándar: I am an engineer.
Con control: I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.
Estándar (ZH): 我是一个工程师。
Con control: 我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。
Paralenguaje
El paralenguaje añade pausas y muletillas naturales para que la voz suene más humana. Hay dos tipos principales:
Muletillas
Puedes usar "um", "uh", "嗯", "啊" u otras muletillas para marcar el ritmo.
Efectos especiales
Estos efectos se añaden con paréntesis:
| Efecto | Descripción | Primera versión | Etapa |
|---|---|---|---|
| (break) | Pausa corta | V2 | Experimental |
| (long-break) | Pausa larga | V2 | Experimental |
| (breath) | Sonido de respiración | V2 | Experimental |
| (laugh) | Risa | V2 | Experimental |
| (cough) | Tos | V2 | Experimental |
| (lip-smacking) | Chasquido de labios | V2 | Experimental |
| (sigh) | Suspiro | V2 | Experimental |
Los efectos (laugh), (cough), (lip-smacking) y (sigh) están en desarrollo; repítelos si hace falta.
Ejemplo en inglés:
Estándar: I am an engineer.
Con paralenguaje: I am, um, an (break) engineer.
Ejemplo en chino:
Estándar: 我是一名工程师。
Con paralenguaje: 我,嗯,是一名(break)工程师。