Nov, 2023

通过自对抗攻击和系统提示实施对 GPT-4V 的越狱

TL;DR通过从 GPT-4V 中成功窃取内部系统提示并使用 SASP(自我对抗攻击系统提示)方法进行监狱破解,本研究发现了 Multimodal Large Language Models(MLLMs)的潜在安全风险并提出了相应的防御方法,以显著降低监狱破解的成功率。