6 阿飞哥 5小时前 86次点击
本教程介绍如何在飞言TTS中使用B站声音复刻功能,将目标音色合成为语音。
第一步:选择模型
进入语音合成页面,在模型选择下拉菜单中,点击并选择"B站声音复刻 IndexTTS"。
第二步:上传参考音频
参考音频决定了合成语音的音色。请提供一段目标说话人的声音样本。
上传方式:
• 方式一:点击"选择文件"按钮,从本地选择MP3或WAV格式的音频文件。
• 方式二:在"公网音频URL"输入框中,填入可公开访问的音频链接(需为HTTPS开头)。
音频建议:
• 时长控制在3秒至10秒之间
• 声音清晰,无背景音乐或明显噪音
• 尽量包含目标说话人完整的发音片段
第三步:选择合成通道
根据文本长度和需求,选择合适的合成通道:
1. 臻享异步(推荐)
• 上限:2048字
• 适用:长文本、小说朗读、对音质要求较高的内容
• 说明:合成质量最高,音色还原最为自然,适合作为主要使用通道。
2. 专业异步
• 上限:600字
• 适用:中等长度文本
• 说明:后台排队处理,稳定性好,不急于取回结果时可选用。
3. 专业同步
• 上限:500字
• 适用:短文本、快速试听音色效果
• 说明:响应速度快,适合在正式合成前快速测试。
第四步:设置情感控制
根据合成内容的需求,选择是否调整情感。情感控制有四种模式可供选择:
模式一:不使用
• 效果:保持参考音频原有的情感状态
• 建议:如果不确定需要什么情感,或希望复刻效果最接近原始声音,请选择此项。
模式二:情感参考音频
• 效果:让目标音色模仿另一段音频的情感
• 操作:在"情感参考音频"区域,上传一段包含目标情感的音频,或填写该音频的网络地址。
• 调节:拖动"情感强度"滑块控制情感强弱,范围0至1,默认0.5。
• 示例:用A的声音,说出B音频中那种激动的语气。
模式三:情感参考文本
• 效果:根据文字描述调整情感
• 操作:在文本框中输入描述,例如"开心、激动,语气轻快自然"。
• 字数限制:最多2048字
• 适用:没有合适的情感参考音频,但能用文字表达需求时,最为便捷。
模式四:情绪向量
• 效果:通过调节8种基础情绪的权重,精确调配情感
• 8种情绪:高兴、生气、悲伤、害怕、厌恶、忧郁、惊讶、平静
• 操作:点击每种情绪旁的加减按钮,调节该情绪的权重。所有情绪权重总和不能超过1.0。
• 调节:可通过"情感强度"滑块控制整体情感表现强弱,默认0.5。
• 重置:如需重新调整,点击"重置"按钮可将所有情绪权重归零。
• 建议:每次只调整2至3种情绪,过多情绪混合可能让效果不清晰。
第五步:输入合成文本
在文本输入框中,输入或粘贴需要合成的内容。
• 字数上限:20000字
• 建议:长文本建议拆分为多个段落分批合成,单次任务过长可能增加失败概率。
第六步:提交合成任务
确认以上设置无误后,点击提交按钮,等待系统处理。
• 臻享异步和专业异步的任务需要等待后台排队处理
• 专业同步的任务响应较快,可快速获得结果
• 合成完成后,可在任务列表中下载音频文件
操作建议
1. 正式合成前,建议先用"专业同步"通道试听一小段,确认音色和情感效果满意后,再用"臻享异步"合成完整内容。
2. 情感强度建议从0.5开始尝试,过高可能导致声音不自然。
3. 如果合成结果不理想,可尝试更换参考音频,或调整情感控制模式后重新合成。
点我获取,飞言 TTS如在使用过程中遇到任何问题,欢迎加入官方交流群,664504747