飞言 TTS，即将上线，IndexTTS

7 阿飞哥 6个月前 838次点击

各位小伙伴们，你们好！我是飞言

TTS

的站长。距离上一次败家式送福利，也过去了一段时间啦。这不2025年马上就要结束了，咱们飞言TTS总算卡着年尾，成功接入了IndexTTS——这款由B站Index语音团队开发的开源声音复刻大模型，在GitHub上已经收获超10k stars，实力可不是吹的，大家听刚刚的演示音频就能直观感受到！

先跟大家说下技术相关：我们接入的IndexTTS模型，由硅基流动提供稳定的算力与API支持，能让模型调用更顺畅[__LINK_ICON]。

本次演示的音频样本，来自日本知名女音乐家KOKIA（

吉田亚纪子

）。她1976年出生，是兼具创作与演唱实力的歌手，嗓音精致独特，曲风融合古典与欧洲民谣，代表作《ありがとう···》《白雪》

《The VOICE》

广为流传，还常被影视、广告选用，2021年也正式入驻了B站和新浪微博，

因为KOKIA的母语是日语，我直接截取了她的视频人声和字幕，交给IndexTTS生成了她讲中文的片段。大家听演示音频就能发现，复刻的音色、声学环境几乎和原样本1:1还原，连原样本里的情绪都模仿得特别到位，不知情的人怕是会以为她真学会一口流利中文了呢！但现实里，KOKIA姐姐只会一些日常问候语，表达还不流畅，不得不说B站这声音克隆模型是真的顶。

看到这儿，肯定有小伙伴要问了：飞言TTS不是早就有豆包声音复刻了吗？这两款模型到底谁强谁弱呀？

先说说豆包声音复刻，自然是能打的！要是你追求高还原度，想精准复刻音色特点，选它准没错，但价格确实不便宜一个音色150元，且存在有效期，有效期为一年，后续每个月得交模型存储费。。它的缺点也很明显：不能调节情绪，还存在音色锐化的情况。拿KOKIA的音频举例，原样本和IndexTTS复刻版都保留了自然的混响效果，但豆包声音复刻只会抓核心音色还原度，会把这些细节当成“小瑕疵”锐化掉，虽然自然度在线，但可玩性确实不高。

再看IndexTTS，它虽然自然度稍逊一筹，但胜在可玩性拉满！作为中文领域的优质开源模型，它支持10秒零样本克隆，还能完整保留原音色的情绪与声学特点，做到1:1复刻，推理延迟甚至低于200毫秒，速度特别快[__LINK_ICON]。而且价格很香，上传音频样本后点击合成，即刻就能使用，对二次元整活、翻译创作的用户来说特别友好，尤其适合追求个性的小伙伴。两款模型的差距，大家听帖子开头的两段对比音频就能清晰分辨，总体来说我对IndexTTS的表现特别满意。

不过说实话，这款模型的体验门槛确实不低，毕竟不是人人都有高性能电脑能支撑本地运行。但大家完全不用愁——飞言TTS已经完成接入，帮大家抛开设备算力的限制，实现零门槛体验！

最后说下大家最关心的收费问题：我可不想当邪恶资本家，收费只是为了覆盖API调用成本，毕竟天上没有免费的午餐。我们能做的，就是让大家用实惠的价格，用上好用的模型，这点还请大家谅解~

关于上线时间：预计2026年前后就能正式和大家见面啦，敬请期待！

天坦茶馆·有料闲聊

共 2 条评论

冰淇淋 6个月前

好家伙，拿豆包写的文案一点都没改，后缀都不删一下的。

阿飞哥 [楼主] 6个月前

虽然文案是豆包写的，但是我们确实是真做出了能运行的版本。

添加一条新评论

登录后可以发表评论去登录

作者