4 人生若只如初见 10个月前 342次点击
似乎描述的都不一样,你们来看看这两段文字。
图片中有一个男人站在一个房间里,他穿着一件印有豹纹图案的衬衫。房间的地板上铺着地毯,墙上挂着一幅画。在画面的左侧,可以看到一台电视和一个冰箱。
一个男人站在房间里,穿着一件花衬衫和短裤。他手里拿着一个大西瓜,似乎在摆姿势拍照。房间里有两把椅子,一把靠近左边,另一把靠近右边。背景中还有一张沙发。
这两段描述的都不一样,你们看看是哪一个描述的比较准确
图片中有一个穿着黑色夹克和蓝色牛仔裤的男子站在白色的墙前。他穿着一双黑色的鞋子,脚上还穿着袜子。图片中有一个穿着黑色夹克和蓝色牛仔裤的男子站在白色的墙前。他穿着一双黑色的鞋子,脚上还穿着袜子。
这一张识别的相当准确
不是你不把图片发上来,咱怎么看识别的正不正确
全屏的相对来说准确一些。
因为全屏识别和焦点识别是不一样的,焦点识别就是你摸到的那个焦点,而全屏的话整个屏幕
所以全品肯定会好一点
借此帖请教一下,我这里为啥无论选择任何接口,图片描述效果是一样的呢,也就是不能体现出详细描述的效果来。需要给什么权限吗?
你用的应该是一句话描述图像,你应该要用全屏图像描述或是焦点图像描述。
谢谢。问题解决。
这张图片展示了两只狗在一条人行道上玩耍。其中一只狗是棕色的,另一只狗是白色的。它们正在互相追逐,看起来非常开心。周围有一些绿色的植物和一些树木,地面上铺着一层泥土。
两只狗站在田野里,彼此对视。一只狗在左边,另一只在右边。它们似乎在互相观察对方。背景中有树木和一座建筑物。
我用的是全屏识别,同一张图片也出现了不同的结果差距还挺大的。
我有点疑问,这个接口好像不是讯飞星火那边的
是讯飞星火
好吧
要说准确率的话,那肯定是全屏识别会更加准确一点的。
这个是焦点图片识别的,识别的不准确,我明明在一个房间,他就说我站在一个有马桶的地方,这哪是马桶,这哪跟哪呀,识别的那么不准确图片显示一个男人站在浴室里,穿着一件黑色夹克和牛仔裤。他似乎在看着摄像机,可能在等待某人或某事。浴室里有一张马桶和一瓶洗手液。图片中有一个穿着黑色夹克和蓝色牛仔裤的男子站在白色的墙前。他穿着一双黑色的鞋子,脚上还穿着袜子。