大规模视觉语言模型攻击综述:资源、进展与未来趋势
本研究评估了开源大型视觉-语言模型的鲁棒性,发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉-语言模型的敌对脆弱性提供了量化的理解,并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。
May, 2023
本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险,指出了高维视觉输入空间本质上是对抗性攻击的理想介质,以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了MiniGPT-4对视觉对抗性例子进行了安全机制,并发现对抗性例子可以打破安全机制并生成有害内容。因此,我们强调了对于安全使用视觉语言模型的紧迫需要,需要进行全面的风险评估,强大的防御措施和实施负责任的工作实践。
Jun, 2023
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
通过将目标响应转化为目标图像,并从目标响应推断出合理的指令,我们提出了一种以指令为导向的有针对性攻击方法,该方法利用共享相同视觉编码器的本地替代模型来提取对抗示例和目标图像的指令感知特征,优化对抗示例以最小化这两个特征之间的距离,从而提高攻击性能和可迁移性。
Dec, 2023
评估大规模视觉-语言模型(LVLMs)对敌对性视觉指令的稳健性和内容偏见的重要性,引入了AVIBench框架,通过多模态任务和内容偏见生成各类敌对性视觉指令进行全面评估。发现现有LVLMs存在漏洞和内在偏见,强调提高LVLMs的稳健性、安全性和公平性的重要性。
Mar, 2024
多模态大型语言模型(MLLMs)的整合增强了其功能,但也带来了安全漏洞,本研究旨在分析并总结MLLMs的攻击和防御机制,并提出未来研究的建议,以深化对MLLM安全挑战的学术理解和发展可信赖的MLLM系统。
Apr, 2024
大型语言模型是各种人工智能应用中的关键组件,理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了LLMs的安全挑战,重点关注两个主要领域:Prompt Hacking和Adversarial Attacks,每个领域都有特定类型的威胁。通过对Prompt Hacking和Adversarial Attacks的分析,研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战,并讨论了保护LLMs免受这些威胁的强大防御框架。通过详细阐述这些安全问题,调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。
Jun, 2024
使用指令调优增强大规模视觉语言模型(LVLMs)会提高安全风险,因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优LVLMs期间后门攻击的普适性,揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性,我们的研究结果表明,攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。此外,我们基于以上关键观察修改了现有的后门攻击方法,在跨域场景的普适性方面取得了显著改进(+86%攻击成功率)。值得注意的是,即使没有访问指令数据集,也可以使用极低的污染率(0.2%)成功毒化多模态指令集,攻击成功率超过97%。本研究强调即使是简单的传统后门策略也对LVLMs构成严重威胁,需要更多关注和深入研究。
Jun, 2024
机视语言模型在研究和实际应用中取得了突破,但其对抗性攻击的鲁棒性至关重要。本研究系统地研究了模型设计选择对机视语言模型在图像攻击方面的抗打击能力的影响。此外,我们引入了新颖且经济的方法通过提示格式来增强鲁棒性。通过改写问题和建议可能的对抗性扰动,我们在抵御强大的图像攻击(如Auto-PGD)方面实现了显著的改进。我们的发现为开发更具鲁棒性的机视语言模型提供了重要指导,尤其是在安全关键环境中的部署。
Jul, 2024