简介

欢迎体验 Fish Audio 提供的先进AI语音技术。我们相信“怎么说”和“说什么”同样重要。为了让每一个合成的声音都不仅仅是“逼真”,更能“触动人心”,我们引入了一套强大的实时情感与声调控制指令系统。

这套系统是 Fish Audio S1 的核心部分,它让您能够精确地为声音注入情感、控制语速和音调。本指南将作为您的向导,全面介绍如何使用这些指令、相关的规则以及最佳实践,帮助您将创意变为富有表现力的声音作品。

本指南将全面介绍如何使用这些指令、相关的规则以及最佳实践。

1. 核心用法:指令语法

所有控制指令都必须放在括号 () 内。此语法是通用的。

基本格式: (指令)要朗读的文本

作用范围: 一个指令会对其后的所有文本生效,直到遇到一个新的指令。中文的指令放置规则比其他语言更灵活,详见下文。

2. 指令分类与规则

指令分为三大类:情感指令、语气控制指令和副语言指令。

2.1 情感指令

情感指令用于设定一句话或一个短语的情感基调。

规则: 情感指令可以放置在句子的 开头中间,这为表达提供了更大的灵活性。

示例:

  • 句首用法:(愤怒)你就是这样回报我的吗?
  • 句中用法:我对你这么信任,(愤怒)你就是这样回报我的吗?

常用中文指令列表:

  • 正面情绪: (开心) (兴奋) (高兴) (得意) (坚定) (感激) (自信) (愉快)
  • 负面情绪: (生气) (气愤) (愤怒) (讽刺) (讥讽) (悲伤) (难过) (无奈) (失望) (着急) (内疚) (沮丧)
  • 中性/疑问: (疑惑) (疑问) (质问) (思考) (惊讶) (震惊) (严肃) (平静)

2.2 语气控制指令

这类指令可以放置在句子的任意位置,以调整声音的表达方式。

速度控制:

  • (语速变快):用于营造紧张、急切的氛围。

    • 示例: 快走!后面有人在追,(语速变快)再不跑就来不及了!
  • (语速变慢):用于营造庄重、思考或强调的氛围。

    • 示例: 他一字一顿,(语速变慢)仿佛每个字都有千斤重。

音量/音调控制:

  • (大声):用于模拟喊叫或需要特别强调的场景。

    • 示例: (大声)你说什么?我听不见!
  • (声音变小):用于模拟耳语、自言自语或悄悄话。

    • 示例: 他凑到我耳边,(声音变小)悄悄告诉我一个秘密。
  • (语气激动):用于表达强烈的情绪波动,如惊喜、激动。

    • 示例: 这太不可思议了!(语气激动)我们竟然真的成功了!

2.3 副语言指令

这类指令用于模拟非语言声音,并且 必须 后跟相应的拟声词。

  • (大笑):用于表达开怀大笑。

    • 示例: 听到这个笑话,他再也忍不住了,(大笑)哈哈哈哈!
  • (哭泣):用于表达伤心哭泣。

    • 示例: 她捂着脸,(哭泣)呜呜呜,再也说不出一句话。
  • (叹气):用于表达失望、无奈或疲惫。

    • 示例: 事情怎么会变成这样……(叹气)唉。

3. 高级用法与组合示例

组合不同的指令,可以创造出富有层次和动态变化的语音效果。

中文示例 (展示灵活性):

(愤怒)你竟然敢背叛我!(语气激动) 我对你这么信任,(大声) 你就是这样回报我的吗?

4. 重要提示与最佳实践

  1. 严格遵守规则: 虽然中文规则较灵活,但将情感指令置于情感单元的开头通常能获得最清晰的效果。

  2. 优先使用标准指令: 上述列表中的官方指令具有最高的准确率。

  3. 慎用描述性指令: 避免创造如 (用悲伤安静的声音) 这样的复杂指令。模型很可能会直接读出它,而不是执行命令。应组合使用标准指令,例如 (悲伤)(声音变小)

  4. 避免指令过度堆砌: 在短句中使用过多指令可能会干扰模型,请有目的地使用。

  5. 注意已知问题: 某些拟声词(特别是笑声或哭声)的发音偶尔可能听起来不自然。这是一个我们正努力改进的已知问题。