Точный контроль синтеза речи

Расширенное управление генерацией речи

С чего начать

Без нормализации числа, даты и URL могут читаться менее стабильно — при необходимости правьте вручную.

Управление фонемами

Фонемный контроль задаёт точное произношение. Сейчас поддерживается:

  • CMU Arpabet (английский)
  • Пиньинь (китайский)

Оборачивайте произношение в <|phoneme_start|> и <|phoneme_end|>. В каждом теге одно слово или иероглиф.

Примеры

Эталон: I am an engineer.

С управлением: I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.

Эталон (кит.): 我是一个工程师。

С управлением: 我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。

Параязык

Параязыковые метки добавляют паузы и слова-паразиты для более естественной речи. Два основных типа:

Слова-паразиты

Используйте «um», «uh», «嗯», «啊» и т. п. для ритма.

Спецэффекты

Эти эффекты задаются в скобках:

ЭффектОписаниеПервая версияСтадия
(break)Короткая паузаV2Экспериментально
(long-break)Длинная паузаV2Экспериментально
(breath)Звук дыханияV2Экспериментально
(laugh)СмехV2Экспериментально
(cough)КашельV2Экспериментально
(lip-smacking)Звук губV2Экспериментально
(sigh)ВздохV2Экспериментально

Эффекты (laugh), (cough), (lip-smacking) и (sigh) в разработке — при необходимости повторяйте.

Пример (англ.):

Эталон: I am an engineer.

С параязыком: I am, um, an (break) engineer.

Пример (кит.):

Эталон: 我是一名工程师。

С параязыком: 我,嗯,是一名(break)工程师。