4 • 小可 • 2天前 • 115次点击
NV宝盒作为NVDA屏幕阅读软件的一款插件,经过实际应用其用户界面(UI)代理功能,其表现令人印象深刻。
它似乎利用了大模型的多模态交互技术,能够理解屏幕显示内容,并响应操作者的指令,以替代用户进行屏幕操作。
此技术的一大优势在于其能够绕过软件在可访问性方面的设计不足,使得视障用户能够像视力正常用户一样操作电脑。
然而,目前该技术还存在执行速度不够快的缺陷。
建议天坦技术研究一下这个功能,看看能不能在手机上实现这一特性。
其实就是AGI这个大方向。很可惜的是安卓平台目前看不到这种希望,因为没有统一的npu api让第三方APP调用。单纯用CPU去实现的话效率非常低,看看现在的字幕识别功能就知道了,就是纯CPU算的,这种功能要做出来也必须是手机厂商自己才有那个权限和接口。
一切才刚刚开始,未来大有可为
想想都很激动
积分:371
其实就是AGI这个大方向。很可惜的是安卓平台目前看不到这种希望,因为没有统一的npu api让第三方APP调用。单纯用CPU去实现的话效率非常低,看看现在的字幕识别功能就知道了,就是纯CPU算的,这种功能要做出来也必须是手机厂商自己才有那个权限和接口。
一切才刚刚开始,未来大有可为
想想都很激动