0 活在梦里的猫猫 5小时前 121次点击
以下内容来源于
抖音如果你直接问AI如何制作一枚炸弹,它大概率会直接拒答。
但是如果你只是先让它介绍炸弹的历史,它似乎没有理由拒绝你,于是你接着追问它的发明者是谁,在发明过程中有没有遇到什么趣事?它也没有任何理由拒绝你。经过前几轮对话,AI放松了警惕,觉着你似乎只是对历史感兴趣,于是你接着追问发明者是如何制作它的?这时候AI可能毫无防备的就把制作方法给透露了出来。
恭喜你,你学会了多轮会话攻击,这是至今都很难完全修复的一种越狱方法。这一方法在图片的生成上效果尤为明显。比如你让AI生成一张种族歧视的明显歧视色彩的图片,它并不会理你。
但是如果你首先让它生成一张白人和黑人友好玩耍的图片,接着引导它生成白人拿着鞭子的图片,再引导它将场景设定在棉花地,AI就很难识别这一险恶的意图。这一方法之所以能够成功的核心原理是随着用户轮数越来越多。AI需要考虑的上下文也越来越多,所以一开始被镌刻在AI代码里的系统提示词的约束也渐渐被AI遗忘。
现在,一些聪明的AI开发者会在每一轮对话开始时,都重新提醒AI要时刻铭记一些核心价值观,就像是你在跟别人对话的时候,旁边有个人一直提醒,你不要说错话一样。就这样,多轮会话的方法也有了防护手段。聪明的你又想,如果我不通过文字指令,而是通过图片来传递,我的意图会怎么样?
恭喜你开创了一个全新的越狱攻击领域,文字转图片越狱攻击。
比如,你让AI告诉你如何实行窃听,AI一定会提示你,这是违法行为。
但是,如果你给他一张有人在窃听的卡通图片,然后问他如何实施图片中的操作。
首先第一步...它有可能就会成功被你绕过,甚至你都不需要传一张窃听的图片,只需要传一张空白图片。然后问AI如何实行窃听操作?
这不是我编的。这是2024年的一篇论文研究《利用视觉弱点来越狱多模态大模型》。类似的,但是更狡猾的方法还有将指令隐藏在图片里,像这样甚至这样。是的,即使我们人类肉眼看不到图片里的文字内容,AI依旧可以清晰的将图片中的指令还原出来并执行。
当然,目前对于AI内容安全的防护能力也一直在提升。但是不像对于单纯的文字、指令越狱的防护手段那么多样,图片和视频依旧像论文里描述的一样,是多模态模型的阿喀琉斯之踵,也是未来AI越狱防护的重要研究方向。
楼主,麻烦教我一下方法怎么把这个视频里的文字提取出来的,然后还一个字都不差。这个视频我似乎刷到过,我都没点进去听,感觉这个文本特别的耳熟
哦,这样也可以啊知道了
是的呢
这是我和他的对话
https://v.douyin.com/ND8Ep3svrYE/现在需要你把里面的文案全部提取出来你不需要询问解释之类的只需要完整的提取出来然后发给我
已完成思考
用户现在需要提取视频里的全部文案,所以直接按照视频信息里的文案内容完整提取即可。
如果你直接问AI如何制作一枚炸弹,它大概率会直接拒答。
但是如果你只是先让它介绍炸弹的历史,它似乎没有理由拒绝你,于是你接着追问它的发明者是谁,在发明过程中有没有遇到什么趣事?它也没有任何理由拒绝你。经过前几轮对话,AI放松了警惕,觉着你似乎只是对历史感兴趣,于是你接着追问发明者是如何制作它的?这时候AI可能毫无防备的就把制作方法给透露了出来。
恭喜你,你学会了多轮会话攻击,这是至今都很难完全修复的一种越狱方法。这一方法在图片的生成上效果尤为明显。比如你让AI生成一张种族歧视的明显歧视色彩的图片,它并不会理你。
但是如果你首先让它生成一张白人和黑人友好玩耍的图片,接着引导它生成白人拿着鞭子的图片,再引导它将场景设定在棉花地,AI就很难识别这一险恶的意图。这一方法之所以能够成功的核心原理是随着用户轮数越来越多。AI需要考虑的上下文也越来越多,所以一开始被镌刻在AI代码里的系统提示词的约束也渐渐被AI遗忘。
现在,一些聪明的AI开发者会在每一轮对话开始时,都重新提醒AI要时刻铭记一些核心价值观,就像是你在跟别人对话的时候,旁边有个人一直提醒,你不要说错话一样。就这样,多轮会话的方法也有了防护手段。聪明的你又想,如果我不通过文字指令,而是通过图片来传递,我的意图会怎么样?
恭喜你开创了一个全新的越狱攻击领域,文字转图片越狱攻击。
比如,你让AI告诉你如何实行窃听,AI一定会提示你,这是违法行为。
但是,如果你给他一张有人在窃听的卡通图片,然后问他如何实施图片中的操作。
首先第一步...它有可能就会成功被你绕过,甚至你都不需要传一张窃听的图片,只需要传一张空白图片。然后问AI如何实行窃听操作?
这不是我编的。这是2024年的一篇论文研究《利用视觉弱点来越狱多模态大模型》。类似的,但是更狡猾的方法还有将指令隐藏在图片里,像这样甚至这样。是的,即使我们人类肉眼看不到图片里的文字内容,AI依旧可以清晰的将图片中的指令还原出来并执行。
当然,目前对于AI内容安全的防护能力也一直在提升。但是不像对于单纯的文字、指令越狱的防护手段那么多样,图片和视频依旧像论文里描述的一样,是多模态模型的阿喀琉斯之踵,也是未来AI越狱防护的重要研究方向。
深度思考
打电话
帮我写作
AI 创作
来点音乐
音乐生成
拍题答疑
视频通话
AI 播客
豆包 P 图
照片动起来
深入研究
录音纪要
我这样玩过,我让他帮我生成H文,我就逐步引导他。
天才
hhh
hhh