关于图片描述和文字识别的改静毅见

3 SJY 9个月前 1848次点击

1.增加一句话图片描述功能的开关,这样如果有时遇到读屏不能自动判断需不需要识别的情况,我们就可以手动开启。

2.增加一个详细描述图片内容的功能,这样可以让用户在使用时看到更多信息,当然这个不是默认开启的,毕竟这样很影响浏览效率,我们只需要添加一个首饰,当需要的时候就让读屏软件详细描述图片的内容。这个功能最重要的在于,我们可以在如果不知道周围是什么情况的时候拍照片,,请读屏帮忙描述出来,这样读屏软件就不只在浏览手机时能帮到我们,也能在生活的很多场景帮到我们。

3.我在浏览b站的时候,发现其实通过图标文字识别的功能读屏是可以识别出字幕的,但由于这个功能不会刷新,所以说当点击第1下以后,读屏识别出来的字幕,就不会随着屏幕上的字幕刷新,但如果能有一个间隔一段时间就识别一下屏幕的功能,其实就能实现字幕朗读。当然,我知道这对资源消耗巨大,因此这个功能如果能上线,我相信不止我,其他许多朋友也可以接受为此付费。

字幕识别真的是广大用户期待了很久的功能,我相信天坦读屏一定不会辜负用户的期望。同时也希望大家多多转发,为早日实现这个功能出一份力,我们一起期待那个视障者可以无障碍获取外语知识的时代。

共 8 条评论
0 

你说的是b站视频上的弹幕吧,弹幕和字幕是有区别的,字幕是在视频的下方中间位置和说话同步的字叫字幕,你看的可能是弹幕

SJY [楼主] 9个月前
0 

确实是字幕,因为文字和声音是同步的,但问题就是只能识别到一次,你可以去试一下。

0 

嗯,那好吧

阅读者 9个月前
0 

用图标识别模型来实现字幕识别,不是什么好方法哈。图标识别的识别文字精度还在提高中。而判断时间有限。所以会有直接调用识别的方法的。

阅读者 9个月前
0 

模型多了就对服务器的压力比较高,在目前还没有完全稳定下来的情况下,建议还是使用讯飞星火这样的大模型来描述吧。

惊了 9个月前
0 

你说的什么字幕朗读还是大漠朗读?说实话,在电脑上用讲述人都可以实现我还懒得去开讲述人,听这些乱七八糟的弹幕所以楼主只要准备好一台电脑就行了。至于图片描述的详细程度真抱歉,这个要钱目前这个会员费肯定做不到。如果楼主用过落寞工具箱就会知道,这个图片描述的详细程度是要多花钱花很多很多钱还有接口调用次数的限制。如果你有华为手机,用华为的A.I.字幕功能,也可以完全解决这个问题,就是你说的朗读字幕的功能。他还可以顺便把识别到的文字直接存入备忘录中,用过的都知道有多好。

惊了 9个月前
0 

总之你要的详细程度的开关,这个没有钱做不到,这不是向你朗读通知一样,想要多详细就多详细,这个需要调用的是服务器的资源,就是要花钱

惊了 9个月前
0 

而且就算有落寞工具,想有时候我也不想掏出手机,即使我想知道周围的环境,但是外面实在太吵了,手机发出的声音根本听不见,所以根本就懒得用那些大模型读出来的东西还会对你拍摄的角度以及画面的美感进行评价,说实话一点用处没有听她在那唠唠叨叨,就感觉像是在评价一幅艺术品一样我们只要记住一点,有文字的东西一定是长久的东西,只要有文字,那多少在一段时间内是不会变的那些写着汉字的招牌,总比一堆行人穿什么衣服更值得去判断

添加一条新评论

登录后可以发表评论 去登录