Feinsteuerung bei Text-zu-Sprache
Erweiterte Steuerung der Sprachsynthese
Erste Schritte
Ohne Normalisierung können Zahlen, Daten und URLs instabiler klingen – ggf. manuell anpassen.
Phonemsteuerung
Mit Phonemsteuerung legen Sie Aussprachen fest. Unterstützt werden:
- CMU Arpabet (Englisch)
- Pinyin (Chinesisch)
Packen Sie die Aussprache in <|phoneme_start|> und <|phoneme_end|>. Pro Tag nur ein Wort oder Zeichen.
Beispiele
Standard: I am an engineer.
Mit Steuerung: I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.
Standard (ZH): 我是一个工程师。
Mit Steuerung: 我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。
Paralinguistik
Paralinguistik fügt Pausen und Füllwörter hinzu, damit die Stimme natürlicher wirkt. Zwei Haupttypen:
Füllwörter
Nutzen Sie „um“, „uh“, „嗯“, „啊“ usw. für den Rhythmus.
Spezialeffekte
Diese Effekte werden in Klammern gesetzt:
| Effekt | Beschreibung | Erste Version | Phase |
|---|---|---|---|
| (break) | Kurze Pause | V2 | Experimentell |
| (long-break) | Lange Pause | V2 | Experimentell |
| (breath) | Atemgeräusch | V2 | Experimentell |
| (laugh) | Lachen | V2 | Experimentell |
| (cough) | Husten | V2 | Experimentell |
| (lip-smacking) | Lippen schmatzen | V2 | Experimentell |
| (sigh) | Seufzen | V2 | Experimentell |
(laugh), (cough), (lip-smacking) und (sigh) sind in Entwicklung – ggf. mehrfach wiederholen.
Beispiel Englisch:
Standard: I am an engineer.
Mit Paralinguistik: I am, um, an (break) engineer.
Beispiel Chinesisch:
Standard: 我是一名工程师。
Mit Paralinguistik: 我,嗯,是一名(break)工程师。