Jun, 2023

视觉对抗样本破解大型语言模型

TL;DR本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险,指出了高维视觉输入空间本质上是对抗性攻击的理想介质,以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制,并发现对抗性例子可以打破安全机制并生成有害内容。因此,我们强调了对于安全使用视觉语言模型的紧迫需要,需要进行全面的风险评估,强大的防御措施和实施负责任的工作实践。