AI Agent热潮:障碍群体有望开启智能新生活

7 萧萧冷雨夜 1天前 193次点击

转发自(信息无障碍)微信公众号

AI Agent(也被称为“AI智能体”)是一种能够自主思考、独立完成任务的智能助手。今年3月,通用性AI智能体产品Manus发布,引爆了大众的广泛关注。

在随后的一个月里,企业纷纷加快了在AI Agent领域的布局。例如,字节跳动开源了Agent TARS框架,智谱推出了最新的智能体“AutoGLM 沉思”,阿里巴巴、腾讯已开始采用MCP协议,谷歌也在Google Cloud Next 25大会上推出了A2A协议,旨在促进AI智能体之间的相互通信。这一系列动作表明,AI智能体在未来将迎来加速发展的趋势。

作为解放人类双手、提高效率的智能助手,AI Agent将为障碍群体的日常生活带来哪些有益的帮助?

注:

MCP协议由Anthropic公司提出,旨在标准化AI模型与外部工具、数据的交互。

A2A协议能够让AI智能体在不同生态系统间安全协作,而无需考虑框架或供应商。

AI Agent有望成为障碍群体的福音

在日常生活中,障碍群体在使用手机等设备查找信息、购物、与外界沟通等场景中面临诸多不便。以视障人士“点外卖”为例,他们通常需要经过十几步操作,即便借助读屏软件,顺利完成下单也要比明眼人花费更多时间。在需要跨应用操作时,例如先通过不同的社交平台查看商品评价,再转到电商平台下单,操作难度往往更大。

而AI智能体凭借自主执行能力,有望助力视障群体、老年人以及其他因肢体障碍难以顺畅操作智能设备的人士,更加便捷地完成一系列日常操作,从而更好地满足日常需求。

在这方面,过去一年多的时间里,智能手机厂商已经开展了诸多尝试。例如,华为将小艺升级为系统级智能体,能够实现跨多应用执行任务。荣耀发布搭载智能体的 AI 手机 Magic7 Pro,能够理解用户意图,并实现跨应用完成一系列复杂任务,如“一键点饮品”、“一键旅行规划与订票”等。vivo 则推出了名为“PhoneGPT”(手机智能体)的多模态助理,能够独立完成预定餐厅等任务。

为了验证手机智能体目前的实际能力和使用效果,今年2月份,南财合规科技研究院联合21世纪经济报道对小米14ultra、荣耀Magic 7、vivo x2000、OPPO Find X7、华为Mate70和三星Galaxy S25这6款手机的智能体进行了实测。

以“帮我点一杯咖啡”为例,小米14ultra和OPPO Find X7能够完成“打开外卖App”和“搜索咖啡”,而荣耀Magic 7则能够完成从“浏览卡片”到“选择咖啡规格”的多轮操作。在代劳完成导航、点外卖、订机票和发微信消息这4大场景的测试中,各款手机在完成“导航”、“订机票”方面表现相对出色。其它2个场景只有荣耀Magic 7和OPPO Find X7能够顺利完成。

整体而言,手机智能体虽然相比过去有了很大的进步,但仍面临成功率低、响应不稳定、耗时长等问题。

复旦大学的眸思大模型还推出了一款面向视障人士的App——“听见世界”,该App具备Agent能力,能够识别周围环境,通过语音智能指引视障者安全通行,并及时提醒潜在危险;在寻物模式下,还可以协助视障者定位日常物件,使生活更加轻松便捷。

另外值得一提的是,目前AI Agent正在从通过用户的明确指令执行任务的被动型,向能够主动观察环境,预判用户需求并执行任务的主动型演进。

例如主动型AI Agent能够主动识别到视障群体正处于机场、大型购物中心或校园等复杂场所,并主动识别并定位障碍物、指示牌等,并给出复杂环境中的导航建议。针对肢体障碍人士使用智能家居的场景,也能够提前预判用户需求并自动完成控制设备等一系列复杂任务。

目前,被动型和主动型AI Agent都处于技术的快速发展阶段。在不久的将来,它们有望显著提升障碍群体的生活便利性和自主性,为他们更好地融入社会生活提供强大助力。

而AI智能体能够让障碍群体广泛受益的基础是易用性。正如李飞飞在《AGENT AI》论文中提到,需要确保AI Agent对残障人士具有可访问性。例如通过语音交互、屏幕阅读器支持、放大字体等方式,使残障人士能够更方便地使用AI智能体。

AI Agent和无障碍技术“互帮互助”

当前,AI智能体常见的两种技术路线是“意图框架”和“视觉路线”。以智能手机为例,采用“意图框架”的技术路线需要经过App授权后,手机智能体通过应用编程接口(API)或者开发套件(SDK)调用App的特定功能。需要解决的核心问题是如何让手机智能体更高效地获取应用程序的后台授权。目前MCP协议和A2A协议的推出正在更好地推动意图框架的构建和发展。

另一方面,“视觉路线”则允许智能体通过前台“读屏+模拟操作”直接操作应用程序,由于这一操作方式需要启用手机中的敏感权限——“无障碍服务”,这一功能最初是为了帮助障碍人士更便捷地使用智能手机而设置的,这引发了人们对该功能是否被滥用的担忧。

在这一问题上,同济大学法学院助理教授、上海市人工智能社会治理协同创新中心研究员朱悦强调:“无障碍功能是一项中立技术,AI和无障碍功能的结合本身不是滥用。以维基百科为例,作为全球无障碍服务最完善的网站之一,它为视障人士、听障人士提供了大量的视频和图像文本标注,而这些数据也是多模态大模型早期的训练数据来源之一。反过来,AI识别图像、生成字幕等能力也在帮助无障碍环境的建设。AI与无障碍技术的“互帮互助”并不是从手机时代才开始的,而是AI发展的必然趋势之一。”

这一观点在网页端可能的体现是,AI智能体(Agent)的发展有望显著加快网站的无障碍改造进程。这是因为AI智能体在执行任务时,会更加注重不同网站的可访问性。无障碍适配的网页通常具有更清晰的结构、更明确的语义标签和更易于解析的内容,这使得AI智能体能够更高效地抓取和处理网页内容。

这种趋势将进一步推动网站所有者和开发者重视并改进其网站的无障碍性,为障碍群体提供更加友好和便捷的网络体验。

展望未来,我们期待在智能体开发者、智能终端厂商、网页及应用程序开发者以及相关监管机构共同努力下, AI Agent 能够不断提升性能和可访问性,为障碍群体创造更加美好的数字生活。

目前还没有评论
添加一条新评论

登录后可以发表评论 去登录