How to use emotion control tags
欢迎体验 Fish Audio 提供的先进AI语音技术。我们相信“怎么说”和“说什么”同样重要。为了让每一个合成的声音都不仅仅是“逼真”,更能“触动人心”,我们引入了一套强大的实时情感与声调控制指令系统。
这套系统是 Fish Audio S1 的核心部分,它让您能够精确地为声音注入情感、控制语速和音调。本指南将作为您的向导,全面介绍如何使用这些指令、相关的规则以及最佳实践,帮助您将创意变为富有表现力的声音作品。
本指南将全面介绍如何使用这些指令、相关的规则以及最佳实践。
所有控制指令都必须放在括号 ()
内。此语法是通用的。
基本格式: (指令)要朗读的文本
作用范围: 一个指令会对其后的所有文本生效,直到遇到一个新的指令。中文的指令放置规则比其他语言更灵活,详见下文。
指令分为三大类:情感指令、语气控制指令和副语言指令。
情感指令用于设定一句话或一个短语的情感基调。
规则: 情感指令可以放置在句子的 开头 或 中间,这为表达提供了更大的灵活性。
示例:
(愤怒)你就是这样回报我的吗?
我对你这么信任,(愤怒)你就是这样回报我的吗?
常用中文指令列表:
(开心)
(兴奋)
(高兴)
(得意)
(坚定)
(感激)
(自信)
(愉快)
(生气)
(气愤)
(愤怒)
(讽刺)
(讥讽)
(悲伤)
(难过)
(无奈)
(失望)
(着急)
(内疚)
(沮丧)
(疑惑)
(疑问)
(质问)
(思考)
(惊讶)
(震惊)
(严肃)
(平静)
这类指令可以放置在句子的任意位置,以调整声音的表达方式。
(语速变快)
:用于营造紧张、急切的氛围。
快走!后面有人在追,(语速变快)再不跑就来不及了!
(语速变慢)
:用于营造庄重、思考或强调的氛围。
他一字一顿,(语速变慢)仿佛每个字都有千斤重。
(大声)
:用于模拟喊叫或需要特别强调的场景。
(大声)你说什么?我听不见!
(声音变小)
:用于模拟耳语、自言自语或悄悄话。
他凑到我耳边,(声音变小)悄悄告诉我一个秘密。
(语气激动)
:用于表达强烈的情绪波动,如惊喜、激动。
这太不可思议了!(语气激动)我们竟然真的成功了!
这类指令用于模拟非语言声音,并且 必须 后跟相应的拟声词。
(大笑)
:用于表达开怀大笑。
听到这个笑话,他再也忍不住了,(大笑)哈哈哈哈!
(哭泣)
:用于表达伤心哭泣。
她捂着脸,(哭泣)呜呜呜,再也说不出一句话。
(叹气)
:用于表达失望、无奈或疲惫。
事情怎么会变成这样……(叹气)唉。
组合不同的指令,可以创造出富有层次和动态变化的语音效果。
中文示例 (展示灵活性):
严格遵守规则: 虽然中文规则较灵活,但将情感指令置于情感单元的开头通常能获得最清晰的效果。
优先使用标准指令: 上述列表中的官方指令具有最高的准确率。
慎用描述性指令: 避免创造如 (用悲伤安静的声音)
这样的复杂指令。模型很可能会直接读出它,而不是执行命令。应组合使用标准指令,例如 (悲伤)(声音变小)
。
避免指令过度堆砌: 在短句中使用过多指令可能会干扰模型,请有目的地使用。
注意已知问题: 某些拟声词(特别是笑声或哭声)的发音偶尔可能听起来不自然。这是一个我们正努力改进的已知问题。