Controle fino de texto para fala

Controle avançado da geração de voz

Primeiros passos

Sem normalização, números, datas e URLs podem soar instáveis — ajuste manualmente se necessário.

Controle de fonemas

O controle de fonemas define pronúncias exatas. Suporte atual:

  • CMU Arpabet (inglês)
  • Pinyin (chinês)

Envolva a pronúncia entre <|phoneme_start|> e <|phoneme_end|>. Cada tag deve ter só uma palavra ou caractere.

Exemplos

Padrão: I am an engineer.

Com controle: I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.

Padrão (ZH): 我是一个工程师。

Com controle: 我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。

Paralinguagem

Paralinguagem adiciona pausas e vícios de linguagem para soar mais humano. Dois tipos principais:

Palavras de preenchimento

Use "um", "uh", "嗯", "啊" etc. para marcar o ritmo.

Efeitos especiais

Estes efeitos usam parênteses:

EfeitoDescriçãoPrimeira versãoEstágio
(break)Pausa curtaV2Experimental
(long-break)Pausa longaV2Experimental
(breath)RespiraçãoV2Experimental
(laugh)RisadaV2Experimental
(cough)TosseV2Experimental
(lip-smacking)Som de lábiosV2Experimental
(sigh)SuspiroV2Experimental

(laugh), (cough), (lip-smacking) e (sigh) estão em desenvolvimento — repita se precisar.

Exemplo em inglês:

Padrão: I am an engineer.

Com paralinguagem: I am, um, an (break) engineer.

Exemplo em chinês:

Padrão: 我是一名工程师。

Com paralinguagem: 我,嗯,是一名(break)工程师。