3 阿飞哥 2小时前 81次点击
大家好,我是阿飞语音合成的运营方阿飞哥。好久不见,经过一段时间的忙碌,我们总算是将豆包的声音复刻模型给,集成到阿飞语音合成上了,这不模型刚稳定完第2天,我就迫不及待的想向大家展示豆包声音复刻模型的实力了,废话少说,下方是,原始音频样本和声音复刻模型,复刻出来的音频大家可以听听看。
接下来是评书,演员的原始声音和声音复刻复刻出来的音色效果。
在这里向大家解释,为什么单田芳的声音,声音复刻模型,复刻的。根本不像他呢。首先我们来回顾一下单田芳老师的声音特点是怎么样的,他的声音是。单田芳老师的嗓音沙哑且富有磁性,业内称其为“云遮月”嗓,不过为什么复刻出来的音色跟他的声音这么不像呢?且听解释。
豆包声音复刻模型难以百分百还原单田芳老师嗓音的沙哑特质,核心原因在于其沙哑是生理结构损伤形成的独特非规则声学特征,且这类特征的精细化建模存在技术瓶颈:
单田芳的沙哑源于不可逆的生理损伤:他的“云遮月嗓”并非天生,而是长期错误用嗓+声带息肉三次手术的结果,这种因生理病变产生的沙哑包含大量非规律性的声带振动、气流摩擦等细节,属于病理嗓音特征
模型对病理嗓音的特征捕捉能力有限:当前语音复刻模型(包括豆包的Seed-TTS)擅长学习常规的音色、语调等规律性声学特征,但对病理嗓音的多尺度特征和高频信息建模不足,声码器在还原这类非规则沙哑细节时,易出现频谱重建误差,导致高频信息丢失或失真。
训练数据的局限性:单田芳老师的音频素材虽多,但缺乏对其沙哑特质的精细化标注数据,模型难以学习到这种独特沙哑的细微变化规律,无法精准复刻其嗓音中因生理损伤产生的沧桑感与不规则沙哑质感。
没有太多时间去听这个演示音频,我就想请问这个是否支持直接上传音频去克隆?呃,应该支持吧,毕竟连评书的声音都克隆出来了