Feinsteuerung bei Text-zu-Sprache

Erweiterte Steuerung der Sprachsynthese

Erste Schritte

Ohne Normalisierung können Zahlen, Daten und URLs instabiler klingen – ggf. manuell anpassen.

Phonemsteuerung

Mit Phonemsteuerung legen Sie Aussprachen fest. Unterstützt werden:

  • CMU Arpabet (Englisch)
  • Pinyin (Chinesisch)

Packen Sie die Aussprache in <|phoneme_start|> und <|phoneme_end|>. Pro Tag nur ein Wort oder Zeichen.

Beispiele

Standard: I am an engineer.

Mit Steuerung: I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.

Standard (ZH): 我是一个工程师。

Mit Steuerung: 我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。

Paralinguistik

Paralinguistik fügt Pausen und Füllwörter hinzu, damit die Stimme natürlicher wirkt. Zwei Haupttypen:

Füllwörter

Nutzen Sie „um“, „uh“, „嗯“, „啊“ usw. für den Rhythmus.

Spezialeffekte

Diese Effekte werden in Klammern gesetzt:

EffektBeschreibungErste VersionPhase
(break)Kurze PauseV2Experimentell
(long-break)Lange PauseV2Experimentell
(breath)AtemgeräuschV2Experimentell
(laugh)LachenV2Experimentell
(cough)HustenV2Experimentell
(lip-smacking)Lippen schmatzenV2Experimentell
(sigh)SeufzenV2Experimentell

(laugh), (cough), (lip-smacking) und (sigh) sind in Entwicklung – ggf. mehrfach wiederholen.

Beispiel Englisch:

Standard: I am an engineer.

Mit Paralinguistik: I am, um, an (break) engineer.

Beispiel Chinesisch:

Standard: 我是一名工程师。

Mit Paralinguistik: 我,嗯,是一名(break)工程师。