阿飞语音合成新功能，声音复刻实机演示。

6 阿飞哥 7个月前 582次点击

大家好，我是阿飞语音合成的运营方阿飞哥。好久不见，经过一段时间的忙碌，我们总算是将豆包的声音复刻模型给，集成到阿飞语音合成上了，这不模型刚稳定完第2天，我就迫不及待的想向大家展示豆包声音复刻模型的实力了，废话少说，下方是，原始音频样本和声音复刻模型，复刻出来的音频大家可以听听看。

接下来是评书，演员的原始声音和声音复刻复刻出来的音色效果。

在这里向大家解释，为什么单田芳的声音，声音复刻模型，复刻的。根本不像他呢。首先我们来回顾一下单田芳老师的声音特点是怎么样的，他的声音是。单田芳老师的嗓音沙哑且富有磁性，业内称其为“云遮月”嗓，不过为什么复刻出来的音色跟他的声音这么不像呢？且听解释。

豆包声音复刻模型难以百分百还原单田芳老师嗓音的沙哑特质，核心原因在于其沙哑是生理结构损伤形成的独特非规则声学特征，且这类特征的精细化建模存在技术瓶颈：

单田芳的沙哑源于不可逆的生理损伤：他的“云遮月嗓”并非天生，而是长期错误用嗓+声带息肉三次手术的结果，这种因生理病变产生的沙哑包含大量非规律性的声带振动、气流摩擦等细节，属于病理嗓音特征

模型对病理嗓音的特征捕捉能力有限：当前语音复刻模型（包括豆包的Seed-TTS）擅长学习常规的音色、语调等规律性声学特征，但对病理嗓音的多尺度特征和高频信息建模不足，声码器在还原这类非规则沙哑细节时，易出现频谱重建误差，导致高频信息丢失或失真。

训练数据的局限性：单田芳老师的音频素材虽多，但缺乏对其沙哑特质的精细化标注数据，模型难以学习到这种独特沙哑的细微变化规律，无法精准复刻其嗓音中因生理损伤产生的沧桑感与不规则沙哑质感。

玩机互助

共 7 条评论

夜舞倾城 7个月前

没有太多时间去听这个演示音频，我就想请问这个是否支持直接上传音频去克隆？呃，应该支持吧，毕竟连评书的声音都克隆出来了

阿飞哥 [楼主] 7个月前

那废话肯定是能直接上传音频去克隆啊，要不然模型怎么参考参考空气来复刻吗。

夜舞倾城 7个月前

哦，我还以为就像豆包那么死板的，按照他那个去朗读

软玉溪 7个月前

话说楼主问一下就是音频去哪里获取例如温柔桃子的音频还有问一下啥时候出现app

飞言TTS 7个月前

温柔桃子的音色，你直接拿屏幕录制去录啊，录完了之后用落寞的视频转音频，将它转成音频啊。

守护天使 7个月前

您好，这个克隆到时候是按照多少个汉字来进行收费的吗？

落雪暖阳 7个月前

你好楼主，请问这个如何收费？

添加一条新评论

登录后可以发表评论去登录

作者

阿飞哥

积分：3870

天命天命就是乖乖听老天的命令。

作者其它话题