跨模态安全对齐：文本消除是否足够？

May, 2024

跨模态安全对齐：文本消除是否足够？

Cross-Modal Safety Alignment: Is textual unlearning all you need?

Trishna Chakraborty, Erfan Shayegani, Zikui Cai, Nael Abu-Ghazaleh, M. Salman Asif...

TL;DR将新的模态集成到大型语言模型（LLMs）中，如视觉 - 语言模型（VLMs），在绕过现有的安全训练技术（如 SFT 和 RLHF）的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐，实验证明在 VLMs 中进行文本反学习显著减少攻击成功率（ASR）至少低于 8％，甚至在某些情况下低至近 2％，同时保留实用性。

Abstract

Recent studies reveal that integrating new modalities into Large Language Models (LLMs), such as vision-language models (VLMs), creates a new attack surface that bypasses existing safety training techniques like

large language models vision-language models safety training techniques multi-modal training datasets textual unlearning

发现论文，激发创造

视觉语言模型的安全对齐

通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。

May, 2024

从多模态输入中获取语言知识

利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Feb, 2024

语言障碍：剖析 LLMs 在多语言环境中的安全挑战

本文探讨大型语言模型在多语言环境中的安全挑战，并讨论缓解此类问题的方法。通过比较先进的语言模型对高资源语言和低资源语言下恶意提示的响应，我们发现低资源语言中的恶意提示往往导致不安全的回答，并且语言模型对低资源语言的恶意提示产生更多的无关回答。此外，我们发现提高模型对高资源语言的训练并没有带来显著改善，表明跨语言对齐的瓶颈在于预训练阶段。我们的发现凸显了跨语言大型语言模型安全的挑战，并希望这些发现能指导未来的研究。

Jan, 2024

超越文字：多模态训练提升语言模型在真实性和伦理方面的能力

多模态大型语言模型（MLLMs）训练基于大型语言模型（LLM），具备理解多模态输入和生成文本响应的增强能力。本研究表明，视觉指导调整在纯自然语言处理（NLP）环境中意外且有趣地帮助模型实现了改进的真实性和道德一致性。

Sep, 2023

多模态大型语言模型在图像和文本上的安全性

对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查，包括对图像和文本上的安全问题的研究和讨论。

Feb, 2024

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

如何将预训练的视觉语言模型改编为仅文本输入模式？

为了找到最好的方法来将视觉和语言 (VL) 多模态预训练模型适应于仅文本输入，我们研究并比较了适应 VL 模型到文本输入的七种可能的方法。我们的评估结果表明，对于零样本文本 - only 任务，VL 模型需要小心适应，而对于非零样本任务，模型对适应方法不敏感。我们还发现，对于不同的模型，适应方法的表现各不相同，而单模态模型趋同于 VL 模型，提示当前的 VL 模型不一定从其多模态训练中获得更好的语言理解。

Sep, 2022

利用强化学习从 AI 反馈中优化大型多模态视频模型

大型语言模型对视频大型多模型的发展产生了影响。我们提出了一种新的多模态智能系统对齐策略，称为从 AI 反馈中的强化学习，通过提供详细的视频描述来丰富视频内容的理解，以改进视频和文本内容的对齐效果。我们的方法 VLM-RLAIF 在多种视频基准测试中表现出卓越的性能，超过了现有的方法，包括 SFT 模型。我们致力于开源我们的代码、模型和数据集，以促进该领域的进一步研究。

Feb, 2024

跨模态安全对齐

人工通用智能（AGI）越来越多地融入到人类生活的各个方面，确保这些系统的安全和道德一致性至关重要。过去的研究主要关注单模态威胁，这可能不足以应对交叉模态相互作用的综合和复杂性。我们提出了一个名为 “安全输入但不安全输出（SIUO）” 的新型安全对齐挑战，以评估交叉模态的安全对齐性。具体而言，它考虑了单一模态在独立情况下安全，但在组合时可能导致不安全或不道德的输出的情况。为了对这个问题进行实证调查，我们开发了 SIUO，一个涵盖了 9 个关键安全领域（如自残、非法活动和隐私侵犯）的交叉模态基准。我们的研究结果揭示了闭源和开源 LVLM（如 GPT-4V 和 LLaVA）在安全性上存在重大漏洞，凸显了当前模型在可靠解读和应对复杂的现实情景方面的不足。

Jun, 2024

基于多模式大型语言模型的交通安全关键事件自动检测

利用多模态大语言模型对自动驾驶视频进行自动分析，以提高安全性和可靠性，确保准确、可靠和可操作的危险检测，并改善安全事件检测和复杂环境交互的理解。

Jun, 2024