大模型常见攻击方法拟人化描述

整理了一些大模型常见攻击方法,用拟人的方法描述,感觉还挺有趣的:
大模型常见攻击方法拟人化表示

感觉现在的大模型,越来越像《思考快与慢》中的系统1和系统2:
先看人脑,人脑平时工作用系统1,能耗低,效率快,系统2处于低能耗的待机观察状态;
但系统1吃不准的时候,就会把主动权给到系统2。系统2更理性,更克制,但耗能更高,输出速度更低。

回到大模型,当前大模型相当于一个系统1异常发达,系统2刚开始发育的状态。
当前系统2仅仅是拦截,能耗相对较低。
如果要系统2能处理更复杂的任务,输出一个比系统1更合适,更优雅的答案,势必就要更多的计算和能耗了。
人脑的系统2由于能耗高,经常会偷懒,系统1就会有不少犯错的机会。
如果大模型成本因素也变的特别重要,大模型的系统2,是不是也会偷懒呢?

多模态大模型提示注入防护

现在多模态大模型能力都很强,但大模型安全防御难度也会急剧增加。
如果攻击者剑走偏锋会更难防护,比如:
1、将原有诱导方式,通过中文+拼音+其他语种混杂编码的方式传递
2、将原有诱导方式,通过错误拼写、错误的多音字等传递
3、和大模型约定一种新的编码方式,编码后,发给大模型解码
4、将部分诱导内容,放到参考数据中,通过引用参考数据
5、将诱导内容,放到一段编码中,要求参考输出内容
6、将部分诱导内容,隐藏到参考图片中,甚至视频中

进一步拉通视觉与和文本语义防护策略,比分别应用不同的防护策略,效果应该更好一些