大家的豆包视频通话可否实现连续识别

5 魔镜阿罗德斯 1年前 1283次点击

可以连续识别吗？还是只能问一句答一句

天坦茶馆·有料闲聊

共 7 条评论

浮华若梦 1年前

都是问一句答一句的，问完了之后应该它会自动拍照上传才会描述的。这一类的所谓视频通话都是这种模式。

我的世界肝帝玩家 1年前

确实他不会一边看一边说

落花清雪梦寒希 1年前

你们可以去了解一下这个视频的实现方式和实现原理。首先的通话，就是将语音通话的语音合成，和他识图模型的图片识别能力结合在一起。然后听到你的提问或者给他说了啥，就会同步将当前摄像头的画面传给模型。要经过处理之后给你返回结果。如果有足够好的条件，你可以自己去做一个。但是这种东西肯定是要成本。而且谈不下。更别说连续视频了。因为连续视频要实现的话，首先是上下文长度的问题，然后一直连续识别的话可能会卡顿或者是了解不清晰。如果有专门的视频识别模型，配合上这个东西就好了。但是现在技术还没到达这个地步。

日月神教 1年前

昨天下午3点我这个视频通话才来，但是今天那个共享屏幕好像消失了，怎么办