建议把万能识别的物品描述,结合到屏幕识别的功能,不知道行不行的通

4 小邓 5天前 163次点击

比如再播放视频的时候,它可以连续描述视频的内容,语音库朗读完识别结果再进行下一次描述,间隔也不算很长,万能识别里的物品描述原理也是通过拍照,识别视频的话通过截图应该行得通

共 6 条评论
惊了 5天前
0 

我猜可能代码运行效率不强,很可能连续识别后会崩溃,而且还要看网上服务器的反应,如果延迟太大的话,很可能也会崩溃

惊了 5天前
0 

一个视频,如果是30帧每秒的话,那么一分钟就是1800张截图,四舍五入一下也要1千张截图,你就放过天堂吧

小邓 [楼主] 5天前
0 

万能识别的物品描述,频率也就大概一秒识别一次,,当然你拿来看电视剧识别电影那肯定压力很大如果只是识别微信别人发来的几十秒一分钟内的小视频应该问题不大

这个只能说不行,因为我用解说试过,解说就有这个功能,它利用的是VIVO的那个蓝星大模型啊,来识别这个视频的这个。里面的动作就是也是就是每一秒截一个张图这样子。试了一下。结果呢?识别识别啊,就崩溃了。识别识别,就崩溃了。再一个就是。刚识别完,读完人家下一个动作了,所以根本就赶不上。
除非就是那种恩,把整个视频直接交给大模型,它来去识别。大量的分析,然后最后把整个视频描述出来,这样子还差不多。但是这个中只能限制40秒钟的视频。
小邓 [楼主] 4天前
0 

哦原来是这样,

添加一条新评论

登录后可以发表评论 去登录