4 TooTo 1小时前 100次点击
梦仔不宅
微信公众号
最近了解到豆包的实时语音通话功能来了一次大升级,接入了字节跳动他们自研的一个原生全双工语音大模型,名字叫
Seeduplex
。说简单点,就是支持真正的边听边说了。我自己也第一时间更新去体验了一下,今天就从一个普通用户的角度,跟大家聊聊实际用起来到底怎么样。
先说最直观的感受:不抢话了,反应也快了
刚用上的时候说实话感觉不算特别明显,或许技术的变化就在于润物细无声,但用着用着就能品出几项变化来。首先就是思考停顿的时候它不会抢话了,能比较智能地判断我是不是说完了,再加上边听边回的机制,响应速度确实比之前快了不少,整体流畅度好了很多。
其次是抗干扰能力有提升。旁边有人说话的时候,至少在我的使用场景里,只要它判断不是在跟豆包交流,基本不会打断回答,误判。当然误判的概率还是有,具体得看什么场景,多用一段时间才有更全面的发言权,但对比以前真的好了太多。我甚至把豆包打电话时的智能降噪关掉了,依旧能保持不错的效果,这点我觉得已经很出色了。
再说最惊喜的发现:读屏软件的声音,它终于不录了
对我来说最关键的一点是,这次更新之后,它好像彻底不会再把我们屏幕阅读器的声音给录进去了。之前打电话的时候,系统经常把读屏软件的朗读声误判成我在说话,两边互相抢话,体验特别差。现在这个问题基本解决了,对话顺畅很多。
而且这个降噪和识别上的优化,对视障朋友常用的语音问答场景也挺实用的。尤其是在嘈杂环境里问答的时候,一方面不会录入屏幕阅读器的声音,另一方面还能比较精准地识别出我本人在说话,保证基本的识别效率。至少我们不用再说一段就得手动关一下麦克风,说完再打开,来回折腾特别麻烦。
像在户外用语音通话识别个店铺招牌、或者问个汉字怎么写这类场景,体验都比以前好了不少。
官方数据也佐证了,这波升级确实不是玄学
聊完主观感受,我把官方那边给出的 Seeduplex 对比上一代半双工模型的数据也搬过来,大家看一眼心里更有数:
数据汇总:误回复降低百分之五十,AI抢话降低百分之四十,判停准确度提升百分之八,通话满意度提升百分之八点三四。
误回复和误打断的情况,整体降低了有百分之五十;
AI 抢话的比例下降了百分之四十。
判停表现也就是它判断你什么时候说完的准确度,提升了百分之八;
对话整体流畅度的评分提升了百分之十二。
最后落到用户整体通话满意度上,提升了百分之八点三四。
这些数字翻译成大白话就是:该闭嘴的时候它不乱插嘴了,该接话的时候反应更准了,聊起来顺溜了,用着也没那么糟心了。跟我的实际体验基本对得上。
总的来说:
这次升级对视障用户、尤其是平常喜欢用打电话功能的人来说,提升确实挺大的,我还是挺推荐大家更新去体验一下的。