更新完豆包打电话,发现它再也不跟读屏软件吵架了

4 TooTo 1小时前 100次点击

梦仔不宅

微信公众号

最近了解到豆包的实时语音通话功能来了一次大升级,接入了字节跳动他们自研的一个原生全双工语音大模型,名字叫

Seeduplex

。说简单点,就是支持真正的边听边说了。我自己也第一时间更新去体验了一下,今天就从一个普通用户的角度,跟大家聊聊实际用起来到底怎么样。

先说最直观的感受:不抢话了,反应也快了

刚用上的时候说实话感觉不算特别明显,或许技术的变化就在于润物细无声,但用着用着就能品出几项变化来。首先就是思考停顿的时候它不会抢话了,能比较智能地判断我是不是说完了,再加上边听边回的机制,响应速度确实比之前快了不少,整体流畅度好了很多。

其次是抗干扰能力有提升。旁边有人说话的时候,至少在我的使用场景里,只要它判断不是在跟豆包交流,基本不会打断回答,误判。当然误判的概率还是有,具体得看什么场景,多用一段时间才有更全面的发言权,但对比以前真的好了太多。我甚至把豆包打电话时的智能降噪关掉了,依旧能保持不错的效果,这点我觉得已经很出色了。

再说最惊喜的发现:读屏软件的声音,它终于不录了

对我来说最关键的一点是,这次更新之后,它好像彻底不会再把我们屏幕阅读器的声音给录进去了。之前打电话的时候,系统经常把读屏软件的朗读声误判成我在说话,两边互相抢话,体验特别差。现在这个问题基本解决了,对话顺畅很多。

而且这个降噪和识别上的优化,对视障朋友常用的语音问答场景也挺实用的。尤其是在嘈杂环境里问答的时候,一方面不会录入屏幕阅读器的声音,另一方面还能比较精准地识别出我本人在说话,保证基本的识别效率。至少我们不用再说一段就得手动关一下麦克风,说完再打开,来回折腾特别麻烦。

像在户外用语音通话识别个店铺招牌、或者问个汉字怎么写这类场景,体验都比以前好了不少。

官方数据也佐证了,这波升级确实不是玄学

聊完主观感受,我把官方那边给出的 Seeduplex 对比上一代半双工模型的数据也搬过来,大家看一眼心里更有数:

数据汇总:误回复降低百分之五十,AI抢话降低百分之四十,判停准确度提升百分之八,通话满意度提升百分之八点三四。

误回复和误打断的情况,整体降低了有百分之五十;

AI 抢话的比例下降了百分之四十。

判停表现也就是它判断你什么时候说完的准确度,提升了百分之八;

对话整体流畅度的评分提升了百分之十二。

最后落到用户整体通话满意度上,提升了百分之八点三四。

这些数字翻译成大白话就是:该闭嘴的时候它不乱插嘴了,该接话的时候反应更准了,聊起来顺溜了,用着也没那么糟心了。跟我的实际体验基本对得上。

总的来说:

这次升级对视障用户、尤其是平常喜欢用打电话功能的人来说,提升确实挺大的,我还是挺推荐大家更新去体验一下的。

共 5 条评论
叶力森 1小时前
0 
那跟他视频通话的时候有没有不一样的地方啊?视频通话让他看东西快不快,反应快不快
TooTo [楼主] 1小时前
0 
这个我也不知道啊,我连电话都没有打过
叶力森 58分钟前
0 
如果视频通话的时候,他速度特别快,那就更好了,相当我们的眼睛,你可以试一试
青青子衿 25分钟前
0 
可惜和逗猫聊天打电话只能聊一些没有营养的废话,能聊真正的话题,因为他会胡说八道,通话模式下的回答简直天马行空
闲云 3分钟前
0 
智能降噪功能,这个功能在哪里打开关闭的?我没有找到啊
添加一条新评论

登录后可以发表评论 去登录