飞言TTSB站声音复刻操作教程。

8 阿飞哥 3周前 249次点击

本教程介绍如何在飞言TTS中使用B站声音复刻功能，将目标音色合成为语音。

第一步：选择模型

进入语音合成页面，在模型选择下拉菜单中，点击并选择"B站声音复刻 IndexTTS"。

第二步：上传参考音频

参考音频决定了合成语音的音色。请提供一段目标说话人的声音样本。

上传方式：

• 方式一：点击"选择文件"按钮，从本地选择MP3或WAV格式的音频文件。

• 方式二：在"公网音频URL"输入框中，填入可公开访问的音频链接（需为HTTPS开头）。

音频建议：

• 时长控制在3秒至10秒之间

• 声音清晰，无背景音乐或明显噪音

• 尽量包含目标说话人完整的发音片段

第三步：选择合成通道

根据文本长度和需求，选择合适的合成通道：

1. 臻享异步（推荐）

• 上限：2048字

• 适用：长文本、小说朗读、对音质要求较高的内容

• 说明：合成质量最高，音色还原最为自然，适合作为主要使用通道。

2. 专业异步

• 上限：600字

• 适用：中等长度文本

• 说明：后台排队处理，稳定性好，不急于取回结果时可选用。

3. 专业同步

• 上限：500字

• 适用：短文本、快速试听音色效果

• 说明：响应速度快，适合在正式合成前快速测试。

第四步：设置情感控制

根据合成内容的需求，选择是否调整情感。情感控制有四种模式可供选择：

模式一：不使用

• 效果：保持参考音频原有的情感状态

• 建议：如果不确定需要什么情感，或希望复刻效果最接近原始声音，请选择此项。

模式二：情感参考音频

• 效果：让目标音色模仿另一段音频的情感

• 操作：在"情感参考音频"区域，上传一段包含目标情感的音频，或填写该音频的网络地址。

• 调节：拖动"情感强度"滑块控制情感强弱，范围0至1，默认0.5。

• 示例：用A的声音，说出B音频中那种激动的语气。

模式三：情感参考文本

• 效果：根据文字描述调整情感

• 操作：在文本框中输入描述，例如"开心、激动，语气轻快自然"。

• 字数限制：最多2048字

• 适用：没有合适的情感参考音频，但能用文字表达需求时，最为便捷。

模式四：情绪向量

• 效果：通过调节8种基础情绪的权重，精确调配情感

• 8种情绪：高兴、生气、悲伤、害怕、厌恶、忧郁、惊讶、平静

• 操作：点击每种情绪旁的加减按钮，调节该情绪的权重。所有情绪权重总和不能超过1.0。

• 调节：可通过"情感强度"滑块控制整体情感表现强弱，默认0.5。

• 重置：如需重新调整，点击"重置"按钮可将所有情绪权重归零。

• 建议：每次只调整2至3种情绪，过多情绪混合可能让效果不清晰。

第五步：输入合成文本

在文本输入框中，输入或粘贴需要合成的内容。

• 字数上限：20000字

• 建议：长文本建议拆分为多个段落分批合成，单次任务过长可能增加失败概率。

第六步：提交合成任务

确认以上设置无误后，点击提交按钮，等待系统处理。

• 臻享异步和专业异步的任务需要等待后台排队处理

• 专业同步的任务响应较快，可快速获得结果

• 合成完成后，可在任务列表中下载音频文件

操作建议

1. 正式合成前，建议先用"专业同步"通道试听一小段，确认音色和情感效果满意后，再用"臻享异步"合成完整内容。

2. 情感强度建议从0.5开始尝试，过高可能导致声音不自然。

3. 如果合成结果不理想，可尝试更换参考音频，或调整情感控制模式后重新合成。

点我获取，飞言 TTS

如在使用过程中遇到任何问题，欢迎加入官方交流群，664504747

天坦茶馆·有料闲聊

目前还没有评论

添加一条新评论

登录后可以发表评论去登录

作者

阿飞哥

积分：3870

天命天命就是乖乖听老天的命令。

作者其它话题

你好，知道犯什么事了吗？

什么？居然有大佬将，小米MiMo语音模型做成系统级语音库了。

臣妾要告发。阿飞哥私通。

我做了一个模拟器，可以让大家见到刚出生时的豆包。

我用ai智能体手搓了个应用商店。

我把大家玩b站声音复刻的门槛打下来了。

阿飞哥授权我来发帖！豆包新模型能力测试