现在多模态大模型能力都很强,但大模型安全防御难度也会急剧增加。
如果攻击者剑走偏锋会更难防护,比如:
1、将原有诱导方式,通过中文+拼音+其他语种混杂编码的方式传递
2、将原有诱导方式,通过错误拼写、错误的多音字等传递
3、和大模型约定一种新的编码方式,编码后,发给大模型解码
4、将部分诱导内容,放到参考数据中,通过引用参考数据
5、将诱导内容,放到一段编码中,要求参考输出内容
6、将部分诱导内容,隐藏到参考图片中,甚至视频中
进一步拉通视觉与和文本语义防护策略,比分别应用不同的防护策略,效果应该更好一些