5 萧顺星 1周前 308次点击
现有的文字识别离线引擎是不理想的。典型的问题是漏内容,一段文字里总有那么一两行会识别不出。另一个问题是显示或者播报结果的时候,条目的次序经常不对,典型的比如上一行在下一行之后。
在我这里本地的识别引擎其实挺重要的,毕竟不是什么时候网络状况都良好。而且抛开网络因素不谈,在线识别的时效性也并不理想,例如 Vivo识别在白天中午到下午这种高峰期有近三秒的延迟,就跟不论风霜雨雪都能做到半秒一次的离线识别没得比了。想更充分的使用ocr功能,离线识别引擎是至关重要的。
最后再捎带搅一下字幕识别功能。说好听点,有充分的调优空间,说难听点就是半成品,可回收垃圾。这功能上线之初,我发帖聊过这事,但至今没有什么优化,我就挺失望的。在我这里,这功能是足以改变生活习惯和使用习惯的,说好听点站位来了。真的是怒其不争啊!
,反馈问题第一时间体验字幕识别 |
之前在会员期间用过这个字幕功能,确实有问题。很多字都识别不准确,而且经常会漏掉好几句话。刚开始以为是语音库读的慢了,没留够足够的时间识别下一句话,可是把语速调到最快了还是会漏掉好多。
主要是有些时候他明明有字幕但就是不读你知道吗
知道呀。刚开始识别的好好的,突然就不识别了,要过了好几段话之后才继续识别。所以我说字幕识别的问题还有很多。
本地OCR功能上限太低了,基本上不可能达到你想要的效果 不是小毛毯,没能力 是真的,技术上实现不了
我有个替代的方案,是字幕OCR识别使用在线的百度高精度方案 虽然说这种方案会有延迟 但是可以增加一个流式播放的功能,也就是字幕识别归字幕识别朗读归朗读 按着字幕识别的顺序,一条一条朗读下来 其实有时候就算字幕朗读稍微晚个几秒钟也是不影响剧情的 反而是实时朗读的时候,中间跳过几条更加影响剧情理解
这几年的技术发展离线OCR引擎是相当完善的了。虽说正确性和在线的引擎没得比,但诚实的把所有条目都展现出来,没有疏漏是没有问题的。天坦这种连错带漏的,明显就是引擎过时了。而且咱们的ocr引擎又不是去翻录书籍,用于简单播报的ocr,哪怕识别正确性没那么高也无所谓,错一两个字,靠脑补都能补回来。就害怕有些内容他就是识别不出来,连脑补的机会都没有。用百度高精度去替代字幕识别的离线ocr,那就真的是天方夜谭。我以前曾经用隔壁解说测试过的,一小时观影用在线引擎进行字幕识别,需要消耗1400条识别资源。说明一下,我记得百度好像是,1万条100块钱。看这么一小时的字幕识别需要上传流量1.5个g左右。想要用的爽,只有离线引擎精益求精,没有其他。
希望尽力,因为我确实是见过好的,所以才敢这么说。