微软TTS使用

<prosody pitch=”value” contour=”value” range=”value” rate=”value” volume=”value”></prosody>

属性 说明
pitch 指示文本的基线音节。 可将音调表述为:

  • 以某个数字后接“Hz”(赫兹)表示的绝对值。 例如,<prosody pitch="600Hz">some text</prosody> 。
  • 以前面带有“+”或“-”的数字,后接“Hz”或“st”(用于指定音节的变化量)表示的相对值。 例如 <prosody pitch="+80Hz">some text</prosody> 或 <prosody pitch="-2st">some text</prosody>。 “st”表示变化单位为半音,即,标准全音阶中的半调(半步)。
  • 常量值:
    • x-low
    • low
    • high
    • x-high
    • 默认值
可选
contour Contour 现支持神经语音。 调型表示音节的变化。 这些变化以语音输出中指定时间处的目标数组形式表示。 每个目标由参数对的集定义。 例如:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

每参数集中的第一个值以文本持续时间百分比的形式指定音节变化的位置。 第二个值使用音节的相对值或枚举值指定音节的升高或降低量(请参阅 pitch)。
可选
range 表示文本音节范围的值。 可使用用于描述 pitch 的相同绝对值、相对值或枚举值表示 range 可选
rate 指示文本的讲出速率。 可将 rate 表述为:

  • 以充当默认值倍数的数字表示的相对值。 例如,如果值为 1,则速率不会变化。 如果值为 0.5,则速率会减慢一半。 如果值为 3,则速率为三倍。
  • 常量值:
    • x-slow
    • slow
    • fast
    • x-fast
    • 默认值
可选
volume 指示语音的音量级别。 可将音量表示为:

  • 以从 0.0 到 100.0(从最安静到最大声)的数字表示的绝对值。 例如 75。 默认值为 100.0。
  • 以前面带有“+”或“-”的数字表示的相对值,指定音量的变化量。 例如 +10 或 -5.5。
  • 常量值:
    • silent
    • x-soft
    • soft
    • loud
    • x-loud
    • 默认值
可选

更改读音:<phoneme alphabet=”sapi” ph=”ma 3 “> 妈 </phoneme>

发表评论

您的电子邮箱地址不会被公开。