视觉语言模型的安全对齐
研究通过 RTVLM 数据集评估当前开源 VLM 在红队评测中的性能差距,结果显示这些 VLM 在不同程度上面临红队挑战,并且与 GPT-4V 相比,性能差距高达 31%。将红队诱导方法应用于 LLaVA-v1.5 模型,性能提高了 10% 以上,并显示出其他基于 LLaVA 的模型无法达到的性能,同时产生的数据对性能并无明显下降。
Jan, 2024
当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题,我们筛选了一个视觉语言安全指令数据集 VLGuard,并将其整合到标准的视觉语言微调中,使模型在安全性方面得到了有效的提升,同时对模型的帮助性影响最小甚至有所增强。经验结果表明,经过微调的大型视觉语言模型能够有效拒绝不安全的指令,并大幅降低几种黑盒对抗攻击的成功率。
Feb, 2024
将新的模态集成到大型语言模型(LLMs)中,如视觉 - 语言模型(VLMs),在绕过现有的安全训练技术(如 SFT 和 RLHF)的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐,实验证明在 VLMs 中进行文本反学习显著减少攻击成功率(ASR)至少低于 8%,甚至在某些情况下低至近 2%,同时保留实用性。
May, 2024
提出了一种名为 SPA-VL 的视觉语言模型安全偏好对齐数据集,通过在此数据集上使用对齐技术进行训练,可以显著提高模型在无害性和有益性方面的表现,同时保持其核心能力。
Jun, 2024
该研究聚焦于 Vision LLMs(VLLMs)在视觉推理中的潜力,从评估性能转移到引入了全面的安全评估套件,包括分布外泛化和对抗鲁棒性。
Nov, 2023
通过检查最近在大型语言模型(LLMs)和视觉语言模型(VLMs)与机器人技术交叉领域的工作,我们展示了将大型语言模型和视觉语言模型整合到机器人应用中所涉及的稳健性和安全性的关键问题。我们定义并提供了几种可能的对抗性攻击的例子,并在三个重要的机器人框架上进行了实验,这些机器人框架集成了一个语言模型,包括 KnowNo VIMA 和 Instruct2Act,以评估它们对这些攻击的易感性。我们的实证研究结果显示出 LLM/VLM-robot 集成系统的一个显著的脆弱性:简单的对抗性攻击可以显著削弱 LLM/VLM-robot 集成系统的有效性。特别是,在提示性攻击下,我们的数据显示出了平均性能下降 21.2%,而在感知攻击下更为严重,达到 30.2%。这些结果强调了确保部署先进的 LLM/VLM 基础机器人系统的安全性和可靠性的关键需求。
Feb, 2024
本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险,指出了高维视觉输入空间本质上是对抗性攻击的理想介质,以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制,并发现对抗性例子可以打破安全机制并生成有害内容。因此,我们强调了对于安全使用视觉语言模型的紧迫需要,需要进行全面的风险评估,强大的防御措施和实施负责任的工作实践。
Jun, 2023
为了解决大型语言模型存在的偏见内容生成和隐私问题,研究引入了 Guide-Align 方法,该方法通过安全训练模型识别潜在风险并建立指南和模型库,然后用于新输入的相关指导,以确保安全和高质量输出,还可以通过精调模型来优化对多样输入的适应性和对指南库的全面性。实验证明该方法显著提高了大型语言模型的安全性和质量,尤其是在 13 亿参数下,优于 GPT-3.5-turbo 和 GPT-4 的对齐能力。
Mar, 2024
通过引入基于 VLM 的安全模型 LlavaGuard,我们设计了可用于评估视觉内容的安全性合规性的多功能框架。我们使用高质量的视觉数据集对 LlavaGuard 进行了调试,其中涵盖了广泛的安全分类工具以在上下文感知的安全风险中进行 VLM 的调整,进而为其提供全面的信息响应,包括安全评级、违反的安全类别和深入的解释,其灵活的分类系统使得 LlavaGuard 可以根据不同场景进行定制化。通过实验证明了 LlavaGuard 在复杂的真实应用中的能力,表现出超越 GPT-4 等基准模型的最新性能,同时提供了从 7B 到 34B 参数的检查点,公开提供我们的数据集和模型权重,邀请研究人员进一步探索和满足不同社区和环境的需求。
Jun, 2024