视觉-语言适应如何影响视觉语言模型的安全性？

Oct, 2024

视觉-语言适应如何影响视觉语言模型的安全性？

How Does Vision-Language Adaptation Impact the Safety of Vision Language Models?

Seongyun Lee, Geewook Kim, Jiyeon Kim, Hyunji Lee, Hoyeon Chang...

TL;DR本研究主要探讨视觉-语言适应（VL适应）对原有大语言模型（LLM）安全性的影响，填补了这一领域的研究空白。通过深入分析，发现VL适应在安全性上存在显著降级，尽管采用安全微调方法仍无法完全消除风险。研究提出了权重合并方法，作为保持有用性的同时有效减少安全性下降的最佳解决方案，为未来更可靠的视觉语言模型提供指导。

Abstract

Vision-Language Adaptation (VL adaptation) transforms Large Language Models (LLMs) into Large Vision-Language Models (LVLMs) for multimodal tasks, but this process often compromises the inherent →

发现论文，激发创造

在预训练的视觉-语言模型上基准测试适应方法的鲁棒性

对11种广泛使用的适应方法在4个视觉语言数据集中的鲁棒性进行了评估，发现适应方法对于文本污染比视觉污染更敏感，完整的微调并不能始终提供最高的鲁棒性，而适配器可以在可比较的干净表现下实现更好的鲁棒性，增加适应数据和参数的数量并不能保证增强鲁棒性，相反，会导致鲁棒性降低。

Jun, 2023

微调对齐语言模型牺牲了安全性，即使用户并无此意!

通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的LLMs上进行微调。然而，此类自定义微调的安全成本是多少？我们的研究发现，尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为，但当将微调权限扩展给最终用户时，它们却无法覆盖安全风险。我们的红队研究发现，只需使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调，就可能危及LLMs的安全对齐性。此外，我们的研究还揭示，即使没有恶意意图，只需使用良性且常用的数据集对LLMs进行微调，也可能无意中降低其安全对齐性。这些发现表明，细调对齐的LLMs引入了新的安全风险，而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析，并倡导进一步的研究努力，以加强对齐的LLMs的自定义微调的安全协议。

Oct, 2023

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

学会看但忘记跟随：视觉指令调整使LLMs更容易遭受越狱攻击

研究通过图像理解扩展大型语言模型（LLMs）已经产生了高性能的视觉语言模型（VLMs）。虽然研究LLMs与人类价值观的一致性已经得到了广泛的关注，但VLMs的安全性却未受到同样的关注。本文探讨了越狱对三种最先进的VLMs的影响，每种VLM都使用了不同的建模方法。通过将每个VLM与其相应的LLM骨干进行比较，我们发现每个VLM更容易受到越狱的影响。我们认为这是从视觉指导调整中产生的对LLM安全规则的遗忘效应，这是一个不可取的结果。因此，我们提供了基于评估策略的未来工作建议，旨在凸显VLM的弱点，并在视觉指导调整期间考虑安全措施。

May, 2024

视觉语言模型的安全对齐

通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。

May, 2024

在大型语言模型的优化过程中测量风险：导航安全景观

通过测量和可视化大型语言模型（LLMs）的安全景观，我们发现了一种称为“安全盆地”的普遍现象，该现象在流行的开源LLMs模型参数空间中观察到。我们提出了一种新的安全度量标准，VISAGE安全度量标准，用于通过探测安全景观来衡量LLMs微调的安全性，并通过可视化的安全景观了解LLMs通过微调如何降低其安全性。LLMs的安全景观还突出了系统提示在保护模型中的关键作用，并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于LLMs安全性的工作提供了新的见解。

May, 2024

跨模态安全对齐：文本消除是否足够？

将新的模态集成到大型语言模型（LLMs）中，如视觉-语言模型（VLMs），在绕过现有的安全训练技术（如SFT和RLHF）的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐，实验证明在VLMs中进行文本反学习显著减少攻击成功率（ASR）至少低于8％，甚至在某些情况下低至近2％，同时保留实用性。

May, 2024

SPA-VL：用于视觉语言模型的全面安全偏好对齐数据集

提出了一种名为SPA-VL的视觉语言模型安全偏好对齐数据集，通过在此数据集上使用对齐技术进行训练，可以显著提高模型在无害性和有益性方面的表现，同时保持其核心能力。

Jun, 2024

模型开发安全：一种以安全为中心的方法及其在视觉-语言模型中的应用

本研究解决了模型开发过程中老模型能力丧失（灾难性遗忘）带来的安全风险和经济成本的问题。提出了一种以安全为中心的框架，确保在模型提升性能的同时严格保留老模型的已有能力。实验结果表明，该方法在自动驾驶和场景识别任务中能有效提升视觉感知能力。

Oct, 2024

揭示与缓解视觉-语言模型的安全对齐退化

本研究解决了视觉-语言模型（VLMs）在整合视觉模块后安全对齐能力退化的问题，称为“安全对齐退化”。通过引入跨模态表征操控（CMRM）方法，研究显示该方法能显著恢复VLMs的安全对齐能力，同时保持其功能性。实证结果表明，该方法有效降低多模态输入的不安全率，具有重要的实际应用价值。

Oct, 2024