转载公众号文章：关于豆包视频通话功能及视障辅助技术的思考

14 难言 6个月前 1245次点击

原创

今梦

2026年1月12日 17:11

Hello大家.

最近我看到有不少视力障碍用户，其中较早受到关注的是以“盲探-小龙蛋”等为代表的几位视力障碍博主，在抖音发布了一个关于使用豆包视频通话帮助他们避障的视频。

在这段视频中，他们给出的指令是：当我走偏或者离开这条道路的时候，请告诉我、引导我，直到我走回正确的路线上。

以其中一位低视力博主为例。他当时的场景是在一条蓝色的小路上。介绍一下背景，他自己是一位低视力患者，眼睛是能够看到一些的。他使用豆包的视频主动提醒功能，要求豆包在他走偏或走歪时提醒他。起初豆包表现还不错，能够及时告知他走偏了。但在引导过程中，这位博主一直在试图打断豆包的回答。我不知道他是有意还是无意，但从视频来看，他显得很着急，像在刻意引导豆包出错。于是豆包不出所料地在后面出现了错误。一方面，豆包的回答跟不上节奏，因为博主正在与豆包交流，交流的同时豆包正在收音，收音的过程中自然无法主动发出提醒——豆包不可能打断用户说话，对吧？所以博主走偏了一次。还有一次，我不知道是不是因为网络原因，豆包直接没有说话，导致这位博主撞上了护栏。撞上之后，他在那里不停地骂、吐槽，抱怨豆包怎么没提醒他。豆包回复说往左边去一点，往右边绕过去。可从视频来看，他确实已经没办法绕过那个护栏了，因为确实没空隙了。所以豆包这里的回答是错的。

但我想说的是，评论区里一堆盲人用户和明眼人看了视频之后，都在说豆包不行，视频主动提醒很危险，盲人以此作为通过马路来行走的方式很危险。最近我好像看到部分盲人的视频通话功能被取消了，主动提醒功能也不能用了，好像不再主动提醒了。我不知道是不是因为豆包看到了这条视频的影响，而把这个功能给下掉了。如果真是因为如此，那可真的是很遗憾——因为这位博主演示的错误表现，导致了这个明明对盲人很有用的功能被迫暂时下架了。

视频主动提醒功能的正确使用场景

首先，我认为视频主动提醒的正确用法应该是用在那些场景，比如我一直在强调的：可以识别店铺的招牌是否到了，红绿灯是否变红或者变绿。红绿灯这个场景最好是低视力人士使用，或者有很丰富出行经验的盲人使用——因为他们通常手里有盲杖，可以通过判断车流、判断人声和自己的出行经验，来综合判断豆包回答的内容是否真实。而除这两类人以外，其他人最好不要用视频主动提醒来判断红绿灯。

除此之外，我觉得可以使用的场景还有提醒斑马线是否走到了，还有在用小米电饭锅煮饭的时候，当按到煮粥、煮饭这些按钮的时候，让豆包告诉我。还有按一些旋钮，比如空气炸锅的旋钮的时候，可以用视频主动提醒。这个功能还可以用在查找某些物品，或是明眼人监督孩子写作业是否开小差的场景。但这类用途都偏娱乐。

为什么AI避障思路本身就是错误的

总之，如果要用在导盲和避障这个场景，我认为以现在的AI响应速度是跟不上节奏的。当部分视障者试图用这个功能来避障时，首先这个思路就是错的。他们的想法已经超出了现在AI能服务的范围，甚至可以说是错误的使用方式。他们会用这种错误的使用方式去要求AI开发者，把产品往避障这个方向去引。

可是手机是便携设备，你不可能一直举着它来判断环境。避障最终还得靠盲杖，而不是手机。因为手机需要截取当前屏幕前面的画面，然后分析，再上传到服务器，在服务器分析完成之后，用语音合成，再传回你的手机，通过语音播报，你听到后再在脑海里做出判断。这中间可能需要3到5秒，而这个时间根本不足以让你避开一些突然出现的障碍——包括车辆、护栏、台阶、水坑等，不管是固定的还是突然出现的。尤其是突然出现的车，可能你本能地一躲，比任何AI提醒都快。何况语音提醒本身就有滞后，在这种情况下，我不认为现在的AI算力能跟上视障人士在外面行走时瞬息万变的环境。

我知道现在其实有很多本地端侧的模型，可以实现一定程度上的端侧引导，不依赖于在线服务器，这或许是未来端侧避障的一个很好的基础。但我依旧不认为，眼镜和智能手机是一个非常不错的避障的选择方式和最优解。

何况摄像头本身就有很大局限，对握持手机的角度各方面要求也高。这种条件下，真能给视障用户一个好的引导吗？这还没算上光线这些因素。所以，至少目前的技术，用手机来避障是完全不现实的。

可是很多视障者不以为然，反而把这种错误的理念拍成视频，试图引导更多视障用户这么用。可如果出了安全问题，代价谁来承担？

我的建议：回归盲杖与定向行走训练

我的观点是：避障请用盲杖，判断前面是否有护栏、是否走歪请用盲杖，请训练自己的定向行走能力，请增强自己的出行能力。是否走歪应该提升自己的出行能力，而不是靠一个语音助手实时告诉你往右一点、往左一点。

我建议那些推崇这类AI避障方式的明眼人朋友或者相关开发者们，可以自己尝试一下：把自己的眼睛完全蒙上，在不借助任何盲杖等工具的情况下，独自去一个商场——比如杭州的东方茂、玉长城这样的地方，或者试试走进一个地铁站。你们可以亲身体验一下，是否真的能够独立、安全地走进去。如果不能，那么请不要再去倡导这种充满“感动性”却充满误导的叙事方式了。

试想，一个语音助手不停地在你耳边说往左、往右、往左、往右，这样的提示真能引导一个盲人走好路吗？你们可以自己把眼睛完全蒙上，然后听这种语音指挥，告诉你往左往右，你真能走、或者敢走吗？而且这样的提示跟得上吗？至少语音这种方式，在嘈杂的环境里、商场里是跟不上的吧？

反而真要做的话，震动反馈——也就是触觉反馈——会比语音更高效，而且不怕吵。所以我依然认为，盲杖才是最好的避障方式，或者说，盲杖配合豆包的视频主动提醒，才是更好的组合。

因此我要表达的观点是：请豆包团队不要受这些视障博主错误导向的影响，就做出一些一刀切的做法，比如下架视频主动提醒功能，或者因为怕给盲人带来不好的影响就暂时下架，导致你们本来为盲人做的一个功能——或者根本没想到会被用来避障的功能——被这些人一带，被迫和这个用途绑在一起，结果引来大家指责你们不为盲人安全考虑，让你们背一些本不该背的锅。

因为首先我们要知道，这功能本来就不是这么用的。部分视障者对AI的预期，已经超出了当前技术能实现的边界，过于理想化了。而这思路本身就是错的。

关于智能眼镜的反思

我们也不得不提回这段时间热议的、像雨后春笋一样冒出来的各种所谓盲人辅助眼镜。它的原理其实还是类似豆包那样的语音交互实时播报，同样避免不了我上面提到的所有问题——角度问题、语音延迟、服务器响应，都跟不上外面瞬息万变的障碍。

有些盲人不可能一直戴着眼镜的，它会影响一些低视力用户看到前面的画面。还有一些盲人朋友是不可以戴眼镜的，因为他的额头那一片区域不可以有遮挡。何况就像我提到的，听语音提示会干扰盲人判断外界环境。同时处理语音信息和外界环境声音，这两者本身就是有安全风险的。

在这种情况下，我不认为它能辅助一个盲人，尤其是出行能力可能本来就不强的盲人独立、安全地出行。

真正能实现避障的，目前除了盲杖就是导盲犬，或者还处在概念阶段的机器导盲犬。因为避障的核心不是告诉你“前面有什么”，而是带你绕过去。而带你绕过去的前提是，我不需要先告诉你前面有个石墩子，就能带你绕开，甚至什么都不用说，你自然而然就走过去了。就像明眼人绕过石墩子的时候，也不会先想一下这石墩多大、该怎么绕，而是下意识就绕过去了。

同样的，就算你告诉我前面5米或者12点钟方向有个台阶，大家能理解吗？有多少人对“5米”有实际概念？并没有。所以你告诉我5米处有台阶，有什么意义呢？

当然，角度方面，眼镜肯定比手机更自然。毕竟眼镜戴在头上，头的高度和脖子的转动能让镜头跟着你的视线走。无论是视野广度还是稳定性，都比手机强。而且能解放双手，不用一直举着手机。从社交角度看，也更礼貌，不会一直拿着手机对着前面拍，避免不小心拍到别人引发误会。这是眼镜的优势，包括它可以用骨传导，把声音直接传到耳朵里。

当然，我不认为当一个盲人把一部分精力放在听语音提示上的时候，他在外面能有多安全。其次，它同样没解决语音交互会被环境噪音干扰的问题——会导致传给设备的指令不准，传回来的信息也可能有误。同样也避免不了我上面说的延迟问题、服务器问题，以及来不及让你避开障碍的问题。很可能语音告诉你前面有车的时候，你已经撞上去了。

结论

所以，用现有的技术，完全抛开盲杖，只靠手机或智能摄像头，用AI来避障、帮助视障人士独立行走，是不太现实的。手机是一个便携设备，不可能一直举着判断环境。我不知道以后技术会怎样，但就现在来说，这几乎是个错误的方向。

因此，无论是智能眼镜，还是手机上的豆包视频通话功能，都不能用来帮盲人避障。最多，只能当作盲杖的一个辅助。

在这个技术飞速发展的时代，我们每个人都有责任去思考、去探索、去实践。盲杖和导盲犬，在可见的未来依旧是最可靠的伙伴；AI技术，虽然还有局限，但正在努力追赶。

最重要的是，我们要记住：技术是为了服务人类，而不是被人类所绑架。在这个充满可能性的时代，让我们以更加开放的心态拥抱技术，同时保持理性的判断。

愿每一位在黑暗中摸索的朋友，都能找到属于自己的光明；愿每一项技术，都能在正确的道路上发光发热；愿我们的社会，因为理解与包容而变得更加温暖。

因为最终，我们共同的目标只有一个：让每一个生命，都能在自己选择的道路上，勇敢而自信地前行。

个人的部分拙见

欢迎大家畅所欲言

天坦茶馆·有料闲聊

共 13 条评论

孤独的雪 6个月前

说的很正确，无论什么时候，我始终告诉我身边的盲人。目前而言，出行，盲杖才是最重要的。任何的AI辅助，都是不靠苦的，对于我独立出行能力很强的盲人来说，一根盲杖，一个高德导航足以，至于对红绿灯的判断，完全是靠个人能力，不依赖任何辅助软件，以及AI

夜舞倾城 6个月前

啊，我的天哪，真下架了还是假下架了呀？太可惜了

沐雨橙风 6个月前

说白了，就是懒，懒得拿盲杖

没有星星的夜空 6个月前

说的非常好，这个建议能不能直接反映给他们后台？

叶林 6个月前

毫无疑问，理性判断至关重要，而豆包这类工具确实具备一定的实用价值。然而必须强调的是，它仅能作为辅助参考，绝不能完全依赖，因其存在一定的响应延迟。与此同时，盲杖始终应佩戴于手中，作为感知环境的基本保障。在识别周围环境与障碍物时，除了依靠盲杖直接触碰外，还可借助声音反射原理——类似蝙蝠利用回声定位的方式。例如，通过拍手或弹舌发出声音，声波向前传播，遇到障碍物后会反射回来，从而帮助判断空间结构。但这一方法也存在一定局限性：并非所有人都能有效运用，主要受限于个人听力条件的差异。因此，其适用性因人而异，需结合个体实际情况灵活选择使用方式。