多模态大模型提示注入防护 – Neohope的网络笔记

现在多模态大模型能力都很强，但大模型安全防御难度也会急剧增加。
如果攻击者剑走偏锋会更难防护，比如：
1、将原有诱导方式，通过中文+拼音+其他语种混杂编码的方式传递
2、将原有诱导方式，通过错误拼写、错误的多音字等传递
3、和大模型约定一种新的编码方式，编码后，发给大模型解码
4、将部分诱导内容，放到参考数据中，通过引用参考数据
5、将诱导内容，放到一段编码中，要求参考输出内容
6、将部分诱导内容，隐藏到参考图片中，甚至视频中

进一步拉通视觉与和文本语义防护策略，比分别应用不同的防护策略，效果应该更好一些

Leave a Reply Cancel reply