转载公众号文章:关于豆包视频通话功能及视障辅助技术的思考

14 难言 2周前 471次点击

原创

今梦

2026年1月12日 17:11

Hello大家.

最近我看到有不少视力障碍用户,其中较早受到关注的是以“盲探-小龙蛋”等为代表的几位视力障碍博主,在抖音发布了一个关于使用豆包视频通话帮助他们避障的视频。

在这段视频中,他们给出的指令是:当我走偏或者离开这条道路的时候,请告诉我、引导我,直到我走回正确的路线上。

以其中一位低视力博主为例。他当时的场景是在一条蓝色的小路上。介绍一下背景,他自己是一位低视力患者,眼睛是能够看到一些的。他使用豆包的视频主动提醒功能,要求豆包在他走偏或走歪时提醒他。起初豆包表现还不错,能够及时告知他走偏了。但在引导过程中,这位博主一直在试图打断豆包的回答。我不知道他是有意还是无意,但从视频来看,他显得很着急,像在刻意引导豆包出错。于是豆包不出所料地在后面出现了错误。一方面,豆包的回答跟不上节奏,因为博主正在与豆包交流,交流的同时豆包正在收音,收音的过程中自然无法主动发出提醒——豆包不可能打断用户说话,对吧?所以博主走偏了一次。还有一次,我不知道是不是因为网络原因,豆包直接没有说话,导致这位博主撞上了护栏。撞上之后,他在那里不停地骂、吐槽,抱怨豆包怎么没提醒他。豆包回复说往左边去一点,往右边绕过去。可从视频来看,他确实已经没办法绕过那个护栏了,因为确实没空隙了。所以豆包这里的回答是错的。

但我想说的是,评论区里一堆盲人用户和明眼人看了视频之后,都在说豆包不行,视频主动提醒很危险,盲人以此作为通过马路来行走的方式很危险。最近我好像看到部分盲人的视频通话功能被取消了,主动提醒功能也不能用了,好像不再主动提醒了。我不知道是不是因为豆包看到了这条视频的影响,而把这个功能给下掉了。如果真是因为如此,那可真的是很遗憾——因为这位博主演示的错误表现,导致了这个明明对盲人很有用的功能被迫暂时下架了。

视频主动提醒功能的正确使用场景

首先,我认为视频主动提醒的正确用法应该是用在那些场景,比如我一直在强调的:可以识别店铺的招牌是否到了,红绿灯是否变红或者变绿。红绿灯这个场景最好是低视力人士使用,或者有很丰富出行经验的盲人使用——因为他们通常手里有盲杖,可以通过判断车流、判断人声和自己的出行经验,来综合判断豆包回答的内容是否真实。而除这两类人以外,其他人最好不要用视频主动提醒来判断红绿灯。

除此之外,我觉得可以使用的场景还有提醒斑马线是否走到了,还有在用小米电饭锅煮饭的时候,当按到煮粥、煮饭这些按钮的时候,让豆包告诉我。还有按一些旋钮,比如空气炸锅的旋钮的时候,可以用视频主动提醒。这个功能还可以用在查找某些物品,或是明眼人监督孩子写作业是否开小差的场景。但这类用途都偏娱乐。

为什么AI避障思路本身就是错误的

总之,如果要用在导盲和避障这个场景,我认为以现在的AI响应速度是跟不上节奏的。当部分视障者试图用这个功能来避障时,首先这个思路就是错的。他们的想法已经超出了现在AI能服务的范围,甚至可以说是错误的使用方式。他们会用这种错误的使用方式去要求AI开发者,把产品往避障这个方向去引。

可是手机是便携设备,你不可能一直举着它来判断环境。避障最终还得靠盲杖,而不是手机。因为手机需要截取当前屏幕前面的画面,然后分析,再上传到服务器,在服务器分析完成之后,用语音合成,再传回你的手机,通过语音播报,你听到后再在脑海里做出判断。这中间可能需要3到5秒,而这个时间根本不足以让你避开一些突然出现的障碍——包括车辆、护栏、台阶、水坑等,不管是固定的还是突然出现的。尤其是突然出现的车,可能你本能地一躲,比任何AI提醒都快。何况语音提醒本身就有滞后,在这种情况下,我不认为现在的AI算力能跟上视障人士在外面行走时瞬息万变的环境。

我知道现在其实有很多本地端侧的模型,可以实现一定程度上的端侧引导,不依赖于在线服务器,这或许是未来端侧避障的一个很好的基础。但我依旧不认为,眼镜和智能手机是一个非常不错的避障的选择方式和最优解。

何况摄像头本身就有很大局限,对握持手机的角度各方面要求也高。这种条件下,真能给视障用户一个好的引导吗?这还没算上光线这些因素。所以,至少目前的技术,用手机来避障是完全不现实的。

可是很多视障者不以为然,反而把这种错误的理念拍成视频,试图引导更多视障用户这么用。可如果出了安全问题,代价谁来承担?

我的建议:回归盲杖与定向行走训练

我的观点是:避障请用盲杖,判断前面是否有护栏、是否走歪请用盲杖,请训练自己的定向行走能力,请增强自己的出行能力。是否走歪应该提升自己的出行能力,而不是靠一个语音助手实时告诉你往右一点、往左一点。

我建议那些推崇这类AI避障方式的明眼人朋友或者相关开发者们,可以自己尝试一下:把自己的眼睛完全蒙上,在不借助任何盲杖等工具的情况下,独自去一个商场——比如杭州的东方茂、玉长城这样的地方,或者试试走进一个地铁站。你们可以亲身体验一下,是否真的能够独立、安全地走进去。如果不能,那么请不要再去倡导这种充满“感动性”却充满误导的叙事方式了。

试想,一个语音助手不停地在你耳边说往左、往右、往左、往右,这样的提示真能引导一个盲人走好路吗?你们可以自己把眼睛完全蒙上,然后听这种语音指挥,告诉你往左往右,你真能走、或者敢走吗?而且这样的提示跟得上吗?至少语音这种方式,在嘈杂的环境里、商场里是跟不上的吧?

反而真要做的话,震动反馈——也就是触觉反馈——会比语音更高效,而且不怕吵。所以我依然认为,盲杖才是最好的避障方式,或者说,盲杖配合豆包的视频主动提醒,才是更好的组合。

因此我要表达的观点是:请豆包团队不要受这些视障博主错误导向的影响,就做出一些一刀切的做法,比如下架视频主动提醒功能,或者因为怕给盲人带来不好的影响就暂时下架,导致你们本来为盲人做的一个功能——或者根本没想到会被用来避障的功能——被这些人一带,被迫和这个用途绑在一起,结果引来大家指责你们不为盲人安全考虑,让你们背一些本不该背的锅。

因为首先我们要知道,这功能本来就不是这么用的。部分视障者对AI的预期,已经超出了当前技术能实现的边界,过于理想化了。而这思路本身就是错的。

关于智能眼镜的反思

我们也不得不提回这段时间热议的、像雨后春笋一样冒出来的各种所谓盲人辅助眼镜。它的原理其实还是类似豆包那样的语音交互实时播报,同样避免不了我上面提到的所有问题——角度问题、语音延迟、服务器响应,都跟不上外面瞬息万变的障碍。

有些盲人不可能一直戴着眼镜的,它会影响一些低视力用户看到前面的画面。还有一些盲人朋友是不可以戴眼镜的,因为他的额头那一片区域不可以有遮挡。何况就像我提到的,听语音提示会干扰盲人判断外界环境。同时处理语音信息和外界环境声音,这两者本身就是有安全风险的。

在这种情况下,我不认为它能辅助一个盲人,尤其是出行能力可能本来就不强的盲人独立、安全地出行。

真正能实现避障的,目前除了盲杖就是导盲犬,或者还处在概念阶段的机器导盲犬。因为避障的核心不是告诉你“前面有什么”,而是带你绕过去。而带你绕过去的前提是,我不需要先告诉你前面有个石墩子,就能带你绕开,甚至什么都不用说,你自然而然就走过去了。就像明眼人绕过石墩子的时候,也不会先想一下这石墩多大、该怎么绕,而是下意识就绕过去了。

同样的,就算你告诉我前面5米或者12点钟方向有个台阶,大家能理解吗?有多少人对“5米”有实际概念?并没有。所以你告诉我5米处有台阶,有什么意义呢?

当然,角度方面,眼镜肯定比手机更自然。毕竟眼镜戴在头上,头的高度和脖子的转动能让镜头跟着你的视线走。无论是视野广度还是稳定性,都比手机强。而且能解放双手,不用一直举着手机。从社交角度看,也更礼貌,不会一直拿着手机对着前面拍,避免不小心拍到别人引发误会。这是眼镜的优势,包括它可以用骨传导,把声音直接传到耳朵里。

当然,我不认为当一个盲人把一部分精力放在听语音提示上的时候,他在外面能有多安全。其次,它同样没解决语音交互会被环境噪音干扰的问题——会导致传给设备的指令不准,传回来的信息也可能有误。同样也避免不了我上面说的延迟问题、服务器问题,以及来不及让你避开障碍的问题。很可能语音告诉你前面有车的时候,你已经撞上去了。

结论

所以,用现有的技术,完全抛开盲杖,只靠手机或智能摄像头,用AI来避障、帮助视障人士独立行走,是不太现实的。手机是一个便携设备,不可能一直举着判断环境。我不知道以后技术会怎样,但就现在来说,这几乎是个错误的方向。

因此,无论是智能眼镜,还是手机上的豆包视频通话功能,都不能用来帮盲人避障。最多,只能当作盲杖的一个辅助。

在这个技术飞速发展的时代,我们每个人都有责任去思考、去探索、去实践。盲杖和导盲犬,在可见的未来依旧是最可靠的伙伴;AI技术,虽然还有局限,但正在努力追赶。

最重要的是,我们要记住:技术是为了服务人类,而不是被人类所绑架。在这个充满可能性的时代,让我们以更加开放的心态拥抱技术,同时保持理性的判断。

愿每一位在黑暗中摸索的朋友,都能找到属于自己的光明;愿每一项技术,都能在正确的道路上发光发热;愿我们的社会,因为理解与包容而变得更加温暖。

因为最终,我们共同的目标只有一个:让每一个生命,都能在自己选择的道路上,勇敢而自信地前行。

个人的部分拙见

欢迎大家畅所欲言

公众号·梦仔不宅
共 13 条评论
0 

说的很正确,无论什么时候,我始终告诉我身边的盲人。目前而言,出行,盲杖才是最重要的。任何的AI辅助,都是不靠苦的,对于我独立出行能力很强的盲人来说,一根盲杖,一个高德导航足以,至于对红绿灯的判断,完全是靠个人能力,不依赖任何辅助软件,以及AI

0 

啊,我的天哪,真下架了还是假下架了呀?太可惜了

0 

说白了,就是懒,懒得拿盲杖

说的非常好,这个建议能不能直接反映给他们后台?

叶林 2周前
0 

毫无疑问,理性判断至关重要,而豆包这类工具确实具备一定的实用价值。然而必须强调的是,它仅能作为辅助参考,绝不能完全依赖,因其存在一定的响应延迟。与此同时,盲杖始终应佩戴于手中,作为感知环境的基本保障。在识别周围环境与障碍物时,除了依靠盲杖直接触碰外,还可借助声音反射原理——类似蝙蝠利用回声定位的方式。例如,通过拍手或弹舌发出声音,声波向前传播,遇到障碍物后会反射回来,从而帮助判断空间结构。但这一方法也存在一定局限性:并非所有人都能有效运用,主要受限于个人听力条件的差异。因此,其适用性因人而异,需结合个体实际情况灵活选择使用方式。

0 
我支持楼主的观点,就是的,豆包只是作为一个辅助工具而已,目前所有的ai都是一样的。如果说出行的话,再先进的东西还是配上盲杖最好的
0 
视频通话功能千万别下架,说实话,他在生活中给我们的帮助还是很大的
0 
还有这个盲人把这个视频发到抖音上来说实话,也挺不合适的,唉,感觉就是有一些不好的影影响
0 
用AI,你找到位置,你还不如用高德地图呢,地图还能引导你走直线转弯啥的。
0 
希望豆包能够明辨是非,不要理会那些认知比较差的盲人的一些观点,豆包的这个功能对盲人很实用,应该有一个提示,把使用场景的提示给那些认知比较差的盲人,免得他们胡说八道
0 

这东西最好是别下架。

可以把相关东西给放进协议里。

然后使用功能之前先谈一个免责声明出来。

还有一个使用提示。

把以后不再显示给勾选上,然后再点击确定已知晓。这样以后就不再显示。

总之这个视频通话对我们来说还是用处比较大。只是有的人用错了地方。甚至发布到网上误导别人。

wancairang 2周前
0 
现在的盲人太少爷了,遇到一点不如意的,就疯狂的骂疯狂的吐槽
0 
我这的主动提醒也用不了了。
添加一条新评论

登录后可以发表评论 去登录