通过概念激活向量揭示开放源代码 LLMs 中的安全风险

Apr, 2024

通过概念激活向量揭示开放源代码 LLMs 中的安全风险

Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector

Zhihao Xu, Ruixuan Huang, Xiting Wang, Fangzhao Wu, Jing Yao...

TL;DR通过概念模型解释从大规模语言模型中提取安全概念激活向量（SCAVs），我们介绍了一种 LLM 攻击方法，可以对经过充分安全对齐的 LLMs 如 LLaMA-2 进行高效攻击，达到近 100% 的攻击成功率，表明即使经过彻底的安全对齐，LLMs 在公开发布后仍可能对社会造成潜在风险。

Abstract

Current open-source large language models (LLMs) are often undergone careful safety alignment before public release. Some attack methods have also been proposed that help check for safety vulnerabilities in LLMs

large language models safety vulnerabilities llm attack method concept-based model explanation scavs

发现论文，激发创造

后门激活攻击：使用激活引导实施对大型语言模型的攻击以达到安全对齐

通过向大型语言模型注入木马激活向量，我们提出了一种名为后门激活攻击的新型攻击框架，使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵，该方法在主要的对齐任务上表现出高度的有效性，并且几乎不会给攻击效率增加任何开销，同时讨论了对抗此类激活攻击的潜在对策。

Nov, 2023

LLMs 在非法目的中的使用：威胁、预防措施和漏洞

本文在探讨大语言模型的发展和分发迅速增长的背景下，关注其安全和安全相关威胁和漏洞的最新研究工作，并提供了已有的科学努力概述，以识别和缓解与大语言模型相关的威胁和漏洞。通过我们的工作，希望在资深开发人员和新颖技术用户中增强对大语言模型的局限性和安全问题的意识。

Aug, 2023

透过上下文学习揭示基础大型语言模型的滥用潜力

大型语言模型的开源加速应用开发、创新和科学进步，但对于基础语言模型的固有指令限制是否可以防止滥用的普遍假设存在关键的疏忽。我们的研究通过精心设计的演示表明，基础语言模型能够有效地解释和执行恶意指令，此漏洞无需特殊知识或训练即可被操纵，强调了对基础语言模型安全协议的紧急关注的重大风险。

Apr, 2024

通过代码探索大型语言模型的安全泛化挑战

通过将自然语言输入转化为代码输入，CodeAttack 框架揭示了大型语言模型的安全泛化性问题，并发现了代码领域中的新安全风险，需要更健壮的安全对齐算法来匹配大型语言模型的代码功能。

Mar, 2024

LLM 的在线安全分析：基准、评估和前进路径

利用一个全面评估的在线安全分析方法基准，本研究揭示了现有在线安全分析方法的优势和局限性，为选择最合适的方法提供了有价值的见解，并探索了将多种方法相结合以提高在线安全分析效果的潜力。

Apr, 2024

评估大型语言模型安全性的因果分析

这项研究提出了一个轻量级因果分析框架，应用于大型语言模型，分析其存在的安全问题，尤其是对抗性扰动和特洛伊攻击，并发现了对模型造成有害提示过拟合的现象，以及一种有效的特洛伊攻击方法。

Dec, 2023

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

在大型语言模型中寻找安全神经元

我们通过从机理解释的角度探索安全对齐的内在机制，重点是识别和分析大语言模型中负责安全行为的安全神经元。我们提出了生成时激活对比来定位这些神经元，并提出了动态激活修复来评估其因果效应。多个最新的大语言模型的实验证明：（1）安全神经元是稀疏而有效的。只通过对大约 5％的神经元进行干预，我们可以恢复 90％的安全性能。（2）安全神经元编码可转移的机制。它们在不同的红队测试数据集上表现出一致的有效性。安全神经元的发现还解释了 “对齐税” 的现象。我们观察到，安全和有用的关键神经元明显重叠，但它们对共享神经元的激活模式有不同要求。此外，我们展示了在生成之前使用安全神经元检测不安全输出的应用。我们的发现可能促进进一步研究理解大语言模型的对齐。源代码将公开发布以促进未来的研究。

Jun, 2024

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

软提示威胁：通过嵌入空间在开源 LLMs 中攻击安全对齐和遗忘

该研究探讨了开源 LLM 模型中潜在的敌对攻击方法，发现利用嵌入空间进行攻击可以更高效地触发危险行为，并提出了一种新的威胁模型，展示了嵌入空间攻击从正在学习和删除的 LLM 模型中提取已删除信息的能力。

Feb, 2024