飞言TTSB站声音复刻操作教程。

6 阿飞哥 5小时前 86次点击



本教程介绍如何在飞言TTS中使用B站声音复刻功能,将目标音色合成为语音。

第一步:选择模型

进入语音合成页面,在模型选择下拉菜单中,点击并选择"B站声音复刻 IndexTTS"。

第二步:上传参考音频

参考音频决定了合成语音的音色。请提供一段目标说话人的声音样本。

上传方式:

• 方式一:点击"选择文件"按钮,从本地选择MP3或WAV格式的音频文件。

• 方式二:在"公网音频URL"输入框中,填入可公开访问的音频链接(需为HTTPS开头)。

音频建议:

• 时长控制在3秒至10秒之间

• 声音清晰,无背景音乐或明显噪音

• 尽量包含目标说话人完整的发音片段

第三步:选择合成通道

根据文本长度和需求,选择合适的合成通道:

1. 臻享异步(推荐)

• 上限:2048字

• 适用:长文本、小说朗读、对音质要求较高的内容

• 说明:合成质量最高,音色还原最为自然,适合作为主要使用通道。

2. 专业异步

• 上限:600字

• 适用:中等长度文本

• 说明:后台排队处理,稳定性好,不急于取回结果时可选用。

3. 专业同步

• 上限:500字

• 适用:短文本、快速试听音色效果

• 说明:响应速度快,适合在正式合成前快速测试。

第四步:设置情感控制

根据合成内容的需求,选择是否调整情感。情感控制有四种模式可供选择:

模式一:不使用

• 效果:保持参考音频原有的情感状态

• 建议:如果不确定需要什么情感,或希望复刻效果最接近原始声音,请选择此项。

模式二:情感参考音频

• 效果:让目标音色模仿另一段音频的情感

• 操作:在"情感参考音频"区域,上传一段包含目标情感的音频,或填写该音频的网络地址。

• 调节:拖动"情感强度"滑块控制情感强弱,范围0至1,默认0.5。

• 示例:用A的声音,说出B音频中那种激动的语气。

模式三:情感参考文本

• 效果:根据文字描述调整情感

• 操作:在文本框中输入描述,例如"开心、激动,语气轻快自然"。

• 字数限制:最多2048字

• 适用:没有合适的情感参考音频,但能用文字表达需求时,最为便捷。

模式四:情绪向量

• 效果:通过调节8种基础情绪的权重,精确调配情感

• 8种情绪:高兴、生气、悲伤、害怕、厌恶、忧郁、惊讶、平静

• 操作:点击每种情绪旁的加减按钮,调节该情绪的权重。所有情绪权重总和不能超过1.0。

• 调节:可通过"情感强度"滑块控制整体情感表现强弱,默认0.5。

• 重置:如需重新调整,点击"重置"按钮可将所有情绪权重归零。

• 建议:每次只调整2至3种情绪,过多情绪混合可能让效果不清晰。

第五步:输入合成文本

在文本输入框中,输入或粘贴需要合成的内容。

• 字数上限:20000字

• 建议:长文本建议拆分为多个段落分批合成,单次任务过长可能增加失败概率。

第六步:提交合成任务

确认以上设置无误后,点击提交按钮,等待系统处理。

• 臻享异步和专业异步的任务需要等待后台排队处理

• 专业同步的任务响应较快,可快速获得结果

• 合成完成后,可在任务列表中下载音频文件

操作建议

1. 正式合成前,建议先用"专业同步"通道试听一小段,确认音色和情感效果满意后,再用"臻享异步"合成完整内容。

2. 情感强度建议从0.5开始尝试,过高可能导致声音不自然。

3. 如果合成结果不理想,可尝试更换参考音频,或调整情感控制模式后重新合成。

点我获取,飞言 TTS

如在使用过程中遇到任何问题,欢迎加入官方交流群,664504747

目前还没有评论
添加一条新评论

登录后可以发表评论 去登录