阿飞语音合成新功能,声音复刻实机演示。

3 阿飞哥 2小时前 81次点击


大家好,我是阿飞语音合成的运营方阿飞哥。好久不见,经过一段时间的忙碌,我们总算是将豆包的声音复刻模型给,集成到阿飞语音合成上了,这不模型刚稳定完第2天,我就迫不及待的想向大家展示豆包声音复刻模型的实力了,废话少说,下方是,原始音频样本和声音复刻模型,复刻出来的音频大家可以听听看。



接下来是评书,演员的原始声音和声音复刻复刻出来的音色效果。



在这里向大家解释,为什么单田芳的声音,声音复刻模型,复刻的。根本不像他呢。首先我们来回顾一下单田芳老师的声音特点是怎么样的,他的声音是。单田芳老师的嗓音沙哑且富有磁性,业内称其为“云遮月”嗓,不过为什么复刻出来的音色跟他的声音这么不像呢?且听解释。

豆包声音复刻模型难以百分百还原单田芳老师嗓音的沙哑特质,核心原因在于其沙哑是生理结构损伤形成的独特非规则声学特征,且这类特征的精细化建模存在技术瓶颈:

单田芳的沙哑源于不可逆的生理损伤:他的“云遮月嗓”并非天生,而是长期错误用嗓+声带息肉三次手术的结果,这种因生理病变产生的沙哑包含大量非规律性的声带振动、气流摩擦等细节,属于病理嗓音特征

模型对病理嗓音的特征捕捉能力有限:当前语音复刻模型(包括豆包的Seed-TTS)擅长学习常规的音色、语调等规律性声学特征,但对病理嗓音的多尺度特征和高频信息建模不足,声码器在还原这类非规则沙哑细节时,易出现频谱重建误差,导致高频信息丢失或失真。

训练数据的局限性:单田芳老师的音频素材虽多,但缺乏对其沙哑特质的精细化标注数据,模型难以学习到这种独特沙哑的细微变化规律,无法精准复刻其嗓音中因生理损伤产生的沧桑感与不规则沙哑质感。

共 6 条评论
0 

没有太多时间去听这个演示音频,我就想请问这个是否支持直接上传音频去克隆?呃,应该支持吧,毕竟连评书的声音都克隆出来了

阿飞哥 [楼主] 2小时前
0 
那废话肯定是能直接上传音频去克隆啊,要不然模型怎么参考参考空气来复刻吗。
0 

哦,我还以为就像豆包那么死板的,按照他那个去朗读

npc 2小时前
0 
话说楼主 问一下 就是音频去哪里获取 例如 温柔桃子的音频 还有问一下啥时候出现app

温柔桃子的音色,你直接拿屏幕录制去录啊,录完了之后用落寞的视频转音频,将它转成音频啊。

守护天使 1小时前
0 

您好,这个克隆到时候是按照多少个汉字来进行收费的吗?

添加一条新评论

登录后可以发表评论 去登录