ETA：评估后对齐视觉语言模型推理时的安全性

Oct, 2024

ETA：评估后对齐视觉语言模型推理时的安全性

ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time

Yi Ding, Bolian Li, Ruqi Zhang

TL;DR本文针对现有视觉语言模型（VLM）在实际应用中的安全性挑战，提出了一种新颖的两阶段推理对齐框架（ETA）。该框架通过评估输入视觉内容和输出响应，增强多模态环境下的安全意识，并通过调整生成分布以确保生成结果更加无害和有帮助，实验证明其在安全性、有效性方面超越了现有方法。

Abstract

Vision Language Models (VLMs) have become essential backbones for Multimodal Intelligence, yet significant safety challenges limit their real-world application. While textual inputs are often effectively safeguar

发现论文，激发创造

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

AVIBench: 评估大型视觉语言模型在对抗性视觉指导下的稳健性

评估大规模视觉-语言模型（LVLMs）对敌对性视觉指令的稳健性和内容偏见的重要性，引入了AVIBench框架，通过多模态任务和内容偏见生成各类敌对性视觉指令进行全面评估。发现现有LVLMs存在漏洞和内在偏见，强调提高LVLMs的稳健性、安全性和公平性的重要性。

Mar, 2024

闭眼，安全已开启: 通过图像到文本转换保护多模态 LLMs

通过 ECSO(Eyes Closed, Safety On) 方法，利用 MLLMs 的内在安全意识，将不安全的图像自适应地转换为文本以激活 MLLMs 中预先对齐的 LLMs 的内在安全机制，从而显著提高模型的安全性，并能用作数据引擎生成 MLLM 对齐的有监督微调数据。

Mar, 2024

保护视觉语言模型免受已插入的视觉提示注入器的威胁

通过SmoothVLM防御机制，本文针对视觉-语言模型中的补丁式对抗性提示注入进行研究，取得了成功的攻击率降低和上下文恢复率提高的平衡。

May, 2024

视觉语言模型的安全对齐

通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。

May, 2024

跨模态安全对齐：文本消除是否足够？

将新的模态集成到大型语言模型（LLMs）中，如视觉-语言模型（VLMs），在绕过现有的安全训练技术（如SFT和RLHF）的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐，实验证明在VLMs中进行文本反学习显著减少攻击成功率（ASR）至少低于8％，甚至在某些情况下低至近2％，同时保留实用性。

May, 2024

SPA-VL：用于视觉语言模型的全面安全偏好对齐数据集

提出了一种名为SPA-VL的视觉语言模型安全偏好对齐数据集，通过在此数据集上使用对齐技术进行训练，可以显著提高模型在无害性和有益性方面的表现，同时保持其核心能力。

Jun, 2024

走向对抗性强大的视觉语言模型：设计选择和提示格式技术的洞察

机视语言模型在研究和实际应用中取得了突破，但其对抗性攻击的鲁棒性至关重要。本研究系统地研究了模型设计选择对机视语言模型在图像攻击方面的抗打击能力的影响。此外，我们引入了新颖且经济的方法通过提示格式来增强鲁棒性。通过改写问题和建议可能的对抗性扰动，我们在抵御强大的图像攻击（如Auto-PGD）方面实现了显著的改进。我们的发现为开发更具鲁棒性的机视语言模型提供了重要指导，尤其是在安全关键环境中的部署。

Jul, 2024

探讨视觉语言预训练模型的鲁棒性：一种多模态对抗攻击方法

本研究针对视觉语言预训练模型在对抗攻击方面的脆弱性，提出了一种新颖的联合多模态变换特征攻击(JMTFA)方法。该方法在白盒环境下，针对视觉和文本两个模态同时引入对抗扰动，显著提高了对抗攻击成功率，并揭示了文本模态对模型的复杂融合过程具有重要影响，这为多模态人工智能系统的可靠部署提供了新视角。

Aug, 2024

揭示与缓解视觉-语言模型的安全对齐退化

本研究解决了视觉-语言模型（VLMs）在整合视觉模块后安全对齐能力退化的问题，称为“安全对齐退化”。通过引入跨模态表征操控（CMRM）方法，研究显示该方法能显著恢复VLMs的安全对齐能力，同时保持其功能性。实证结果表明，该方法有效降低多模态输入的不安全率，具有重要的实际应用价值。

Oct, 2024