CoCA：通过宪法校准恢复多模态大型语言模型的安全意识

Sep, 2024

CoCA：通过宪法校准恢复多模态大型语言模型的安全意识

CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration

Jiahui Gao, Renjie Pi, Tianyang Han, Han Wu, Lanqing Hong...

TL;DR本研究解决了多模态大型语言模型在面对恶意视觉输入时缺乏安全意识的问题。通过将安全要求的原则融入模型输入，提出了一种简单有效的技术CoCA，显著提升了模型的安全意识而不影响其原有能力。研究表明，CoCA能够帮助模型重新获得原始的安全意识，具有重要的潜在影响。

Abstract

The deployment of multimodal large language models (MLLMs) has demonstrated remarkable success in engaging in conversations involving visual inputs, thanks to the superior power of large language models (LLMs). Those MLLMs are typically built based on the LLMs, with an image encoder to process images into the token embedding space of the LLMs. However, the i

发现论文，激发创造

MLLM-Protector：确保 MLLM 安全性而不影响性能

为了应对多模式大型语言模型的安全性方面尚未解决的问题，我们提出了MLLM-Protector，一种结合了轻量级有害检测器和响应解毒剂的即插即用策略。通过该策略，我们有效地减轻了恶意视觉输入带来的风险，同时不影响模型的整体性能。

Jan, 2024

多模态大型语言模型在图像和文本上的安全性

对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查，包括对图像和文本上的安全问题的研究和讨论。

Feb, 2024

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

闭眼，安全已开启: 通过图像到文本转换保护多模态 LLMs

通过 ECSO(Eyes Closed, Safety On) 方法，利用 MLLMs 的内在安全意识，将不安全的图像自适应地转换为文本以激活 MLLMs 中预先对齐的 LLMs 的内在安全机制，从而显著提高模型的安全性，并能用作数据引擎生成 MLLM 对齐的有监督微调数据。

Mar, 2024

狂放的伊卡洛斯：多模态大语言模型安全中图像输入的潜在危险调研

多模态大型语言模型（MLLMs）的整合增强了其功能，但也带来了安全漏洞，本研究旨在分析并总结MLLMs的攻击和防御机制，并提出未来研究的建议，以深化对MLLM安全挑战的学术理解和发展可信赖的MLLM系统。

Apr, 2024

视觉语言模型的安全对齐

通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。

May, 2024

在大型语言模型的优化过程中测量风险：导航安全景观

通过测量和可视化大型语言模型（LLMs）的安全景观，我们发现了一种称为“安全盆地”的普遍现象，该现象在流行的开源LLMs模型参数空间中观察到。我们提出了一种新的安全度量标准，VISAGE安全度量标准，用于通过探测安全景观来衡量LLMs微调的安全性，并通过可视化的安全景观了解LLMs通过微调如何降低其安全性。LLMs的安全景观还突出了系统提示在保护模型中的关键作用，并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于LLMs安全性的工作提供了新的见解。

May, 2024

跨模态安全对齐：文本消除是否足够？

将新的模态集成到大型语言模型（LLMs）中，如视觉-语言模型（VLMs），在绕过现有的安全训练技术（如SFT和RLHF）的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐，实验证明在VLMs中进行文本反学习显著减少攻击成功率（ASR）至少低于8％，甚至在某些情况下低至近2％，同时保留实用性。

May, 2024

多模态大型语言模型可信度评估：一项全面研究

通过建立MultiTrust综合基准，本研究通过对21种现代多模态大型语言模型的广泛实验，揭示了一些之前未开发的可信度问题与风险，强调了多模态性引入的复杂性，并强调提升其可靠性的先进方法的必要性。

Jun, 2024

MLLMGuard：多模态大型语言模型的多维安全评估套件

本文介绍了MLLMGuard，一个针对MLLMs的多维安全评估套件，包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估，结果表明MLLMs在安全和责任方面仍有很长的路要走。

Jun, 2024