建议把万能识别的物品描述，结合到屏幕识别的功能，不知道行不行的通

5 小邓 1年前 1493次点击

比如再播放视频的时候，它可以连续描述视频的内容，语音库朗读完识别结果再进行下一次描述，间隔也不算很长，万能识别里的物品描述原理也是通过拍照，识别视频的话通过截图应该行得通

天坦读屏交流

共 6 条评论

惊了 1年前

我猜可能代码运行效率不强，很可能连续识别后会崩溃，而且还要看网上服务器的反应，如果延迟太大的话，很可能也会崩溃

惊了 1年前

一个视频，如果是30帧每秒的话，那么一分钟就是1800张截图，四舍五入一下也要1千张截图，你就放过天堂吧

小邓 [楼主] 1年前

万能识别的物品描述，频率也就大概一秒识别一次，，当然你拿来看电视剧识别电影那肯定压力很大如果只是识别微信别人发来的几十秒一分钟内的小视频应该问题不大

信仰之跃 1年前

这个只能说不行，因为我用解说试过，解说就有这个功能，它利用的是VIVO的那个蓝星大模型啊，来识别这个视频的这个。里面的动作就是也是就是每一秒截一个张图这样子。试了一下。结果呢？识别识别啊，就崩溃了。识别识别，就崩溃了。再一个就是。刚识别完，读完人家下一个动作了，所以根本就赶不上。

信仰之跃 1年前

除非就是那种恩，把整个视频直接交给大模型，它来去识别。大量的分析，然后最后把整个视频描述出来，这样子还差不多。但是这个中只能限制40秒钟的视频。

小邓 [楼主] 1年前

哦原来是这样，

添加一条新评论

登录后可以发表评论去登录

作者

小邓

积分：2348

这家伙很懒，什么都没有留下

作者其它话题