7 阿飞哥 2周前 280次点击
各位小伙伴们,你们好!我是飞言
TTS
的站长。距离上一次败家式送福利,也过去了一段时间啦。这不2025年马上就要结束了,咱们飞言TTS总算卡着年尾,成功接入了IndexTTS——这款由B站Index语音团队开发的开源声音复刻大模型,在GitHub上已经收获超10k stars,实力可不是吹的,大家听刚刚的演示音频就能直观感受到!
先跟大家说下技术相关:我们接入的IndexTTS模型,由硅基流动提供稳定的算力与API支持,能让模型调用更顺畅[__LINK_ICON]。
本次演示的音频样本,来自日本知名女音乐家KOKIA(
吉田亚纪子
)。她1976年出生,是兼具创作与演唱实力的歌手,嗓音精致独特,曲风融合古典与欧洲民谣,代表作《ありがとう···》《白雪》
《The VOICE》
广为流传,还常被影视、广告选用,2021年也正式入驻了B站和新浪微博,
因为KOKIA的母语是日语,我直接截取了她的视频人声和字幕,交给IndexTTS生成了她讲中文的片段。大家听演示音频就能发现,复刻的音色、声学环境几乎和原样本1:1还原,连原样本里的情绪都模仿得特别到位,不知情的人怕是会以为她真学会一口流利中文了呢!但现实里,KOKIA姐姐只会一些日常问候语,表达还不流畅,不得不说B站这声音克隆模型是真的顶。
看到这儿,肯定有小伙伴要问了:飞言TTS不是早就有豆包声音复刻了吗?这两款模型到底谁强谁弱呀?
先说说豆包声音复刻,自然是能打的!要是你追求高还原度,想精准复刻音色特点,选它准没错,但价格确实不便宜一个音色150元,且存在有效期,有效期为一年,后续每个月得交模型存储费。。它的缺点也很明显:不能调节情绪,还存在音色锐化的情况。拿KOKIA的音频举例,原样本和IndexTTS复刻版都保留了自然的混响效果,但豆包声音复刻只会抓核心音色还原度,会把这些细节当成“小瑕疵”锐化掉,虽然自然度在线,但可玩性确实不高。
再看IndexTTS,它虽然自然度稍逊一筹,但胜在可玩性拉满!作为中文领域的优质开源模型,它支持10秒零样本克隆,还能完整保留原音色的情绪与声学特点,做到1:1复刻,推理延迟甚至低于200毫秒,速度特别快[__LINK_ICON]。而且价格很香,上传音频样本后点击合成,即刻就能使用,对二次元整活、翻译创作的用户来说特别友好,尤其适合追求个性的小伙伴。两款模型的差距,大家听帖子开头的两段对比音频就能清晰分辨,总体来说我对IndexTTS的表现特别满意。
不过说实话,这款模型的体验门槛确实不低,毕竟不是人人都有高性能电脑能支撑本地运行。但大家完全不用愁——飞言TTS已经完成接入,帮大家抛开设备算力的限制,实现零门槛体验!
最后说下大家最关心的收费问题:我可不想当邪恶资本家,收费只是为了覆盖API调用成本,毕竟天上没有免费的午餐。我们能做的,就是让大家用实惠的价格,用上好用的模型,这点还请大家谅解~
关于上线时间:预计2026年前后就能正式和大家见面啦,敬请期待!