Nov, 2023

FigStep: 通过字体视觉提示破解大型视觉 - 语言模型

TL;DR通过引入图像通道进行有害指令注入,再使用良性文本提示诱导视觉语言模型输出违反常见人工智能安全策略的内容,本研究证明了视觉语言模型容易受到越狱攻击的漏洞,彰显出视觉与文本模态之间的新型安全对齐的必要性。