Jul, 2024

大规模视觉语言模型攻击综述:资源、进展与未来趋势

TL;DR本文综述了现有的大型视觉语言模型(LVLMs)攻击的各种形式,包括对模型输出进行操纵的对抗性攻击,利用模型漏洞进行未经授权行为的越狱攻击,通过修饰提示类型和模式进行的提示注入攻击以及影响模型训练的数据污染攻击,并讨论了未来的研究方向。我们希望通过本综述揭示LVLM的脆弱性,激发更多研究人员探索和减轻LVLM发展中的潜在安全问题。