建议天坦输入法能否尝试接入豆包的语音识别模型?

8 阿飞哥 18小时前 200次点击

豆包流式语音识别大模型

通用ASR有以下几个难点

在噪音环境下,模型性能显著下降;

面对同音字词,时常无法正正确区分;

对专有名词(如地名,行业术语)无法正确识别。

很难保保证上下文的一致性,如人名,代词他她它等。

基于上述问题和挑战,火山引擎语音团队基于大模型语音识别能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势,语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑。

产品优势 标题 1

超高的准确率:相比小模型识别错误率降低30%,在音乐,科技,教育,医疗等垂直领域识别错误率降低50%以上。

复杂场景识别效果提升:支持多语种多方言语音识别,口音错误率降低60%,噪声和背景人声下降30%-50%

更类真人的交互体验:大模型能根据上下文,用户输入,背景信息输入等,让“耳朵”能思考,给出更贴合语境的识别效果;

应用场景 标题 1

语音交互: 为人机交互提供语音输入渠道,通过实时将语音转成文字作为输入,达到和设备/硬件/应用快速&便捷交互的目的。

会议访谈转写:将会议、访谈音频实时识别为文字,自动切分有语音部分识别,降本增效;同时自动分段,有效提升会议内容记录效率。

游戏语音输入:针对游戏语音输入、手机输入法场景,支持用户“边说边出文字”的效果,极大降低用户文字沟通费力度、提升沟通效率。

点这。了解豆包语音识别模型

说实话,我本人已经受够了讯飞的语音识别了,老是将读屏,识别成*,在使用豆包的语音识别模型跟豆包聊天的时候,都不会出现这样的问题,所以希望官方能够采纳一下这个意见,让我们输入法的语音识别效果更上一层楼,哪怕收费贵那么一点点,我也能接受。

共 13 条评论
车厘子 18小时前
0 
不知道价格怎么样

我看了一下字节跳动的大模型,这个调用服务也就是语音接口。有开发者说过,嗯,每次调用的话也就是0点。几也就是几毛钱的事情,几毛钱,但是只是说一次调用好,不是说嗯这个这个也就是说一个用户调用的话,那就是0点几几。0点几块钱,那如果是一群用户,那就好好玩儿了。再加上嗯怎么说要是便宜的话,用的人多了。那服务器还得扩展,又是一个开销。

注意,我说的不是字节跳动的服务器要扩展,是你们的。以上纯属于观点。自己的

阿飞哥 [楼主] 5小时前
0 

服务器不用扩展呢,只需要升级一下带宽就行了,我自己做的阿飞语音合成调用豆包的语音合成模型,其实就是服务器代理转发只要你的带宽上去了就可以了呀。

兄弟,你那个语音合成网站走代理转发,靠带宽确实能扛住,毕竟用户量没那么大。但输入法要是接入豆包语音识别API,那可是面向全体用户的实时高并发请求!就算带宽够,服务器计算资源跟不上照样得崩——就像之前加个智能面板都卡成PPT,响应慢半拍,说到底是服务器资源撑不住突发流量。

现在这语音识别要真接入,用户量一上来,后端没足够容器、没负载均衡、没扩容机制,怕是直接瘫痪。别看单次调用成本低,量大起来服务器开销可不是小数目。价格定低了用的人多服务器炸,价格高了又劝退用户……所以光升级带宽不够,整个后端架构都得提前压测扩容,不然体验反而倒跌。结果扩容的还不是要有加钱,为啥扩容服务器不需要钱?不管是云服务器还是说物流服务器。包括带宽又要给运营商加钱。就看着办吧,只是我的个人观点。价格低,服务器招架不住,要扩容就只能把价格提高一点。

有钱一切都好说
壮丽星海 17小时前
0 

我也建议接入这个。 哪怕这个引擎要稍微收点钱,只要不是太贵,而且比现在的速度好用的话,完全能接受。

你放心,字节跳动花了12年就能把火山语音转文字引擎给做的那么好,又明又识别的很准确,说个悄悄话,只要你麦克风性能好,周围没啥环境噪音的话。它的识别的一清二楚,特别准确,讯飞的话它你大声说话的话,它可以识别到。但是你小声说话的态度不一定搞得定的,毕竟讯飞大的是商业办公专业这个领域,火山走的是用户日常生活这个走向,但不得不否认两个语音识别。真的是旗鼓相当,都可以识别方言英语之类的,所以你放心。收费肯定是会的,不过呢也不会太贵,一年下来。三四十,四五十一个月下来也不会按照风格惯例的话,你们这儿肯定是10元,20元起,这是猜的,因为之前天台输入法的单独语音包一个月就跟你要6块钱。那这个就是这个样子,毕竟没办法,第三方服务的成本摆在那儿就是这个样子。还是觉得怎么说呢?毕竟这个语音识别太好用了。加上便宜的话,买的多了又要扩大服务器,又是一个成本,又要收高。价格死循环,所以嗯你们就自己看着办吧。积分的话我也说过前面积分也可以搞,比如你说了多少个字,它就扣你多少个积分,或者说你说了多久它就扣你多少。积分之类的最好是按字数来算。

永恒的流星 16小时前
0 

我觉得肯定不会比讯飞便宜太多

我也这么觉得,肯定不会比讯飞那么便宜,为啥字节跳动才12年多就能嗯,把语音识别做的那么好,火山转语音文字引擎比讯飞都要灵敏,而且要更加的准确和怎么说呢?因为怎么说讯飞他现在是走的是办公这条路,所以语音识别的灵敏度不如火山那边好,火山那边是什么?只要你麦克风好,周围没啥环境噪音。你说个悄悄话他都听得一清二楚,但前提是你就算这位没怀你进噪音还得看你手机麦克风怎么样?

我觉得像你们这种语音输入接入的话,用在超级会员最合适,哈哈哈。或者说搞个积分制,每分钟语音识别花多少积分,或者说每次识别根据字数而定来花多少积分,这个也挺好的想法,哈哈。毕竟嘛可是要成本的,我之前我也在我们南京大学也提过这个建议。关于收费的事情,介入以后可以搞个收费制,也就是跟账号绑定,要么开月会员。来开通这个语音识别。要么开年会员,要么就是开了会员号跟这个设备绑定,就是到一定期间后再开一次会员,或者说你换了这台设备,那就要重新开会员了。所以最好的就是账号绑定方式,哈哈。

decca 6小时前
0 
提出一个另类的建议,希望开发者能做一个精简版的输入法。把语音输入和联网功能砍掉

主要是后期还有很多成本的多的很,什么维护升级。以及商业合作的时候又是一个不小的成本投入,签合同。就害怕有些人说让他免费不就行了吗?

添加一条新评论

登录后可以发表评论 去登录