揭示与缓解视觉-语言模型的安全对齐退化

Oct, 2024

揭示与缓解视觉-语言模型的安全对齐退化

Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models

Qin Liu, Chao Shang, Ling Liu, Nikolaos Pappas, Jie Ma...

TL;DR本研究解决了视觉-语言模型（VLMs）在整合视觉模块后安全对齐能力退化的问题，称为“安全对齐退化”。通过引入跨模态表征操控（CMRM）方法，研究显示该方法能显著恢复VLMs的安全对齐能力，同时保持其功能性。实证结果表明，该方法有效降低多模态输入的不安全率，具有重要的实际应用价值。

Abstract

The Safety Alignment ability of Vision-Language Models (VLMs) is prone to be degraded by the integration of the vision module compared to its LLM backbone. We investigate this phenomenon, dubbed as ''

发现论文，激发创造

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

闭眼，安全已开启: 通过图像到文本转换保护多模态 LLMs

通过 ECSO(Eyes Closed, Safety On) 方法，利用 MLLMs 的内在安全意识，将不安全的图像自适应地转换为文本以激活 MLLMs 中预先对齐的 LLMs 的内在安全机制，从而显著提高模型的安全性，并能用作数据引擎生成 MLLM 对齐的有监督微调数据。

Mar, 2024

视觉语言模型的安全对齐

通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。

May, 2024

跨模态安全对齐：文本消除是否足够？

将新的模态集成到大型语言模型（LLMs）中，如视觉-语言模型（VLMs），在绕过现有的安全训练技术（如SFT和RLHF）的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐，实验证明在VLMs中进行文本反学习显著减少攻击成功率（ASR）至少低于8％，甚至在某些情况下低至近2％，同时保留实用性。

May, 2024

SPA-VL：用于视觉语言模型的全面安全偏好对齐数据集

提出了一种名为SPA-VL的视觉语言模型安全偏好对齐数据集，通过在此数据集上使用对齐技术进行训练，可以显著提高模型在无害性和有益性方面的表现，同时保持其核心能力。

Jun, 2024

多模态大语言模型中的视觉表示法则

本研究针对多模态大语言模型（MLLMs）中视觉表示的有效性提出了“视觉表示法则”，解决了跨模态对齐与视觉表示之间的关系问题。我们引入了跨模态对齐与对应性评分（AC评分），并通过实验证明该评分与模型表现呈线性关系。最重要的发现是，通过利用这种关系，我们能够仅训练最佳视觉表示，从而减少99.7%的计算成本。

Aug, 2024

CoCA：通过宪法校准恢复多模态大型语言模型的安全意识

本研究解决了多模态大型语言模型在面对恶意视觉输入时缺乏安全意识的问题。通过将安全要求的原则融入模型输入，提出了一种简单有效的技术CoCA，显著提升了模型的安全意识而不影响其原有能力。研究表明，CoCA能够帮助模型重新获得原始的安全意识，具有重要的潜在影响。

Sep, 2024

通过模态集成率解码大型视觉语言模型中的跨模态对齐

本研究针对大型视觉语言模型（LVLMs）在多模态预训练阶段缺乏有效评估指标的问题，提出了模态集成率（MIR）这一新颖的衡量标准。MIR有效、稳健且具有广泛适用性，能够准确反映预训练质量，并对后续的模型表现有积极影响。实验结果表明，MIR不仅可以优化训练数据选择和策略，还能为未来跨模态对齐的研究提供指导。

Oct, 2024

ETA：评估后对齐视觉语言模型推理时的安全性

本文针对现有视觉语言模型（VLM）在实际应用中的安全性挑战，提出了一种新颖的两阶段推理对齐框架（ETA）。该框架通过评估输入视觉内容和输出响应，增强多模态环境下的安全意识，并通过调整生成分布以确保生成结果更加无害和有帮助，实验证明其在安全性、有效性方面超越了现有方法。

Oct, 2024

视觉-语言适应如何影响视觉语言模型的安全性？

本研究主要探讨视觉-语言适应（VL适应）对原有大语言模型（LLM）安全性的影响，填补了这一领域的研究空白。通过深入分析，发现VL适应在安全性上存在显著降级，尽管采用安全微调方法仍无法完全消除风险。研究提出了权重合并方法，作为保持有用性的同时有效减少安全性下降的最佳解决方案，为未来更可靠的视觉语言模型提供指导。

Oct, 2024