大家想不想调用豆包的音色来朗读小说?

4 阿飞哥 3小时前 132次点击


大家好,我是飞言TTS的站长。

上个星期,我发了两篇调研帖子,说我们想做输入法。但收到好多用户的强烈建议,都说最好别碰输入法和录音纪要这块。理由是已经有太成熟的产品了,不少小伙伴都建议,还是把目光放回我们的主业上。好吧,各位小伙伴说得也对,是该聚焦主业。这几天我们也一直在琢磨,飞言TTS未来的路到底该怎么走?

在我看来,飞言TTS本身调用的供应商模型没什么问题,问题主要出在我们自己身上——我们把语音合成的链路做得太冗长了。比如大家想听公众号文章、听小说,正常习惯都是打开小说软件,选好音色,点朗读,就能流畅听了。但我们现在的做法呢?用户得把内容复制粘贴过来,选音色,再点合成。就算我们做了一键提取公众号文章的功能,用户好像也不买账。

我正愁怎么解决这个问题呢,今天刷B站刚好刷到个视频。视频里讲有博主开发了个工具,能调用豆包音色朗读小说。我看了下它的实现逻辑,简单说就是特别粗暴,普通用户上手特别难。原理就是靠开源阅读的Web服务来调用相关API接口。而且这项目本身不提供模型服务,想用的话,你得自己去豆包网页版,把豆包的Cookie抓下来填到他软件里。软件再模拟豆包网页版去请求字节服务器,说白了就是薅羊毛。

网上资料也说了,这种非官方第三方项目,需要用户手动抓包、部署,流程复杂,还违反用户协议,容易账号封禁、服务断连。而且Token时效短,经常失效,还存在隐私泄露风险。

我看到之后就想,这不正好能借鉴思路,给飞言TTS拓宽场景吗?我的想法是:我们也利用开源阅读的Web服务,直接连接到飞言TTS的服务器。用户在阅读APP里一点朗读,我们飞言TTS就拿到当前小说内容,然后通过我们自己申请的、合法的火山引擎官方接口,把文本交给火山引擎的豆包音色去合成朗读 。

这样一来,既实现了功能,还完全合法合规 ,对用户来说上手难度也低。最重要的是,你不用去跟字节的规则死磕——因为我们走的本来就是字节官方的合法开发者通道 ,你只要是飞言TTS的用户就行。

怎么样?这个方案给力不?大家需不需要?

共 15 条评论
夜舞倾城 3小时前
0 
如果上手不是太难的话,这也是支持的
阿飞哥 [楼主] 3小时前
0 

那我们肯定会尽量精简步骤啊。

⁦⁩ 3小时前
0 
感觉很厉害的样子,支持一下。
彼岸 3小时前
0 
不错,音色挺自然的。用豆包APP不能多角色朗读。楼主你可以将这个想法发布到B站上去,这样可以让更多人知道,那些明眼人估计也能用得上。
阿飞哥 [楼主] 3小时前
0 

唉,有没有一种可能这个就是人家B站的视频呢?我们就是借鉴别人的思路嘛,是音频里面的项目,他们得让用户自己去抓包,自己部署服务,我们直接将这个步骤省了。用户要使用的时候,直接在我们,飞言 TTS里头获取我们提供的密钥,再粘贴到开源阅读里面就可以用了

彼岸 3小时前
0 
这样啊
阿飞哥 [楼主] 3小时前
0 

不过虽然项目是别人的,但思路是可行的,

⁦⁩ 3小时前
0 
我听了一下音频,感觉很不错耶。
要钱,还不如用脚本。
阿飞哥 [楼主] 2小时前
0 

用脚本,字节跳动会封你服务啊。普通用户哪有能力天天跟字节跳动玩猫鼠游戏?

天保 28分钟前
0 

我觉得吧,你们可以读屏语音库的方式,就是做一下读屏这方面,因为这个很自然,如果做语音库的话,感觉很合适

阿飞哥 [楼主] 19分钟前
0 

做读屏语音库有风险啊,万一我这边的额度用完了,字节跳动拒绝了我的请求,那不就歇菜了,小说就不同了,额度用完了,大不了他就不出声了呗,你们的读屏还是能正常操作啊。

天保 13分钟前
0 

但可以试试有没有别的方案能代替这一方面的,这样的话能让他会更稳定一点,的确如此,小说这方面的确不会影响读屏操作,这一点倒是没有错的

天保 28分钟前
0 

我觉得吧,你们可以读屏语音库的方式,就是做一下读屏这方面,因为这个很自然,如果做语音库的话,感觉很合适,就是个人意见,感觉他做语音库的话会更好,这样的话能帮助视障人士,使用读屏软件的时候,音色会更好听一点,而且它的整体音色都挺好的,我之前用它去文本合成语音,用来当那个微信铃声,感觉很不错,如果这个用来朗读应该会更好听

天保 27分钟前
0 

刚才网络卡了,评论慢了点,可能把第1条相当于合成第2条了。那种评论,就是说你们可以专注于做语音库这一方面,做那种很自然的语音,就是做自然语音那种类型的,应该会比较好,这种的话基本上每个人都需要

添加一条新评论

登录后可以发表评论 去登录