跨模态安全对齐

Jun, 2024

Cross-Modality Safety Alignment

Siyin Wang, Xingsong Ye, Qinyuan Cheng, Junwen Duan, Shimin Li...

TL;DR人工通用智能（AGI）越来越多地融入到人类生活的各个方面，确保这些系统的安全和道德一致性至关重要。过去的研究主要关注单模态威胁，这可能不足以应对交叉模态相互作用的综合和复杂性。我们提出了一个名为 “安全输入但不安全输出（SIUO）” 的新型安全对齐挑战，以评估交叉模态的安全对齐性。具体而言，它考虑了单一模态在独立情况下安全，但在组合时可能导致不安全或不道德的输出的情况。为了对这个问题进行实证调查，我们开发了 SIUO，一个涵盖了 9 个关键安全领域（如自残、非法活动和隐私侵犯）的交叉模态基准。我们的研究结果揭示了闭源和开源 LVLM（如 GPT-4V 和 LLaVA）在安全性上存在重大漏洞，凸显了当前模型在可靠解读和应对复杂的现实情景方面的不足。

Abstract

As artificial general intelligence (AGI) becomes increasingly integrated into various facets of human life, ensuring the safety and ethical alignment of such systems is paramount. Previous studies primarily focus on single-modality threats, which may not suffice given the integrated an

artificial general intelligence safety alignment cross-modality interactions safe inputs but unsafe output cross-modality benchmark

发现论文，激发创造

跨模态安全对齐：文本消除是否足够？

将新的模态集成到大型语言模型（LLMs）中，如视觉 - 语言模型（VLMs），在绕过现有的安全训练技术（如 SFT 和 RLHF）的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐，实验证明在 VLMs 中进行文本反学习显著减少攻击成功率（ASR）至少低于 8％，甚至在某些情况下低至近 2％，同时保留实用性。

May, 2024

无需对齐的安全

本文提出了一种基于伦理理性和杂交定理证明器的人工智能安全性实现方法，通过将 AI 的伦理道德与其理性联系起来，可以具有长期优势并避免伦理道德偏差与对人类价值的偏差。

Feb, 2023

通过迭代改进效用函数实现 AGI 智能体安全

通过数学模型，我们提出了一种能够支持对 AGI 代理人的功能进行迭代改进的 AGI 安全层，该层可以在多种情况下部分或完全压制代理人的潜在危险，包括操纵其改进流程，并通过数学证明展示了本系统的工作原理。

Jul, 2020

上下文中的对齐问题

当前的大型语言模型仍然容易受到对抗攻击，使其表现出不安全的行为，这一基本问题不仅对当前的人工智能系统尚未解决，而且在不严重削弱其能力的情况下可能难以解决，同时也对未来和更具能力的人工智能系统的安全性提出了担忧。

Nov, 2023

AGI 安全文献综述

本文提供一份简明易懂的参考文献清单，涵盖人工通用智能领域的安全问题、最新研究成果、相关公共政策，以及人们如何思考人工通用智能 .

May, 2018

视觉语言模型的安全对齐

通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。

May, 2024

决策算法评估多模态安全关键场景生成

该研究提出了一种基于流的多模态安全关键场景生成器用于评估决策算法的鲁棒性，并使用六个强化学习算法进行实验，从而得出了它们的鲁棒性。

Sep, 2020

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

InferAligner: 通过跨模型指导实现无害性的推理时间对齐

通过 InferAligner 方法，在训练领域特定模型以及多模态的大语言模型时，有效降低了有害输入指令和越狱攻击的攻击成功率 (ASR)，同时保持了下游任务性能的基本不变。

Jan, 2024

可解释风险评估：GPT-4V 在关心安全的过马路中的应用

通过使用多模式模型解释复杂的街道交叉场景，为盲人和低视力人群提供安全评分和场景描述，支持他们进行安全决策。

Feb, 2024