安全算法：通过控制参数和激活函数在测试时间对齐语言模型的安全性

Jun, 2024

安全算法：通过控制参数和激活函数在测试时间对齐语言模型的安全性

Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

Rima Hazra, Sayan Layek, Somnath Banerjee, Soujanya Poria

TL;DR安全算术是一种训练 - free 的框架，可提高大型语言模型在不同场景下的安全性，通过避免有害内容和促进安全响应来确保模型的安全性，实验证明安全算术在确保生成安全内容方面优于现有方法。

Abstract

Ensuring the safe alignment of large language models (LLMs) with human values is critical as they become integral to applications like tra

large language models alignment human values safety arithmetic model safety

发现论文，激发创造

语言模型就是霍默・辛普森！通过任务算术重新矫正经过微调的语言模型的安全性

通过简单的算术方法，用一个安全向量对受损模型的权重进行相加，我们提出的 LLM 安全重新对齐方法 RESTA 能够有效地降低受损模型的有害性，而在任务上保持大部分模型的性能。

Feb, 2024

模拟非对齐：大规模语言模型的安全对齐可能适得其反！

通过推出一种推理时攻击框架，研究表明安全对齐也可能在对抗性操作下无意中促进有害结果，实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率，从而强调重评估安全对齐后的开源语言模型的重要性。

Feb, 2024

通过语言模型算术控制文本生成

使用模型算术，我们可以对大型语言模型进行组合和偏置，同时使得生成的文本具有更精确的控制，并且在毒性减少任务上表现优于现有技术。

Nov, 2023

安全对齐不应仅限于几个标记

当前大型语言模型（LLM）存在的安全对齐问题容易受到攻击，我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在，并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLMs 的多个漏洞，包括对敌对性后缀攻击、填充攻击、解码参数攻击和微调攻击的敏感性。同时，我们讨论了浅安全对齐的综合概念如何为减轻这些漏洞指明了有价值的研究方向，并提出了一种通过限制对初始标记的更新来使安全对齐更具持久性的正则化微调目标。总之，我们主张未来的安全对齐应该超越前几个标记而更加深入。

Jun, 2024

暗影对齐：篡改安全对齐语言模型的容易程度

开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。

Oct, 2023

在大型语言模型的优化过程中测量风险：导航安全景观

通过测量和可视化大型语言模型（LLMs）的安全景观，我们发现了一种称为 “安全盆地” 的普遍现象，该现象在流行的开源 LLMs 模型参数空间中观察到。我们提出了一种新的安全度量标准，VISAGE 安全度量标准，用于通过探测安全景观来衡量 LLMs 微调的安全性，并通过可视化的安全景观了解 LLMs 通过微调如何降低其安全性。LLMs 的安全景观还突出了系统提示在保护模型中的关键作用，并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于 LLMs 安全性的工作提供了新的见解。

May, 2024

视觉语言模型的安全对齐

通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。

May, 2024

基于子空间导向模型融合的大型语言模型安全重整框架

通过子空间导向模型融合（SOMF）的安全重新对齐框架，本研究旨在将初始对齐模型和当前精细调整后的模型的安全能力结合到重新对齐的模型中，验证了该框架在维持安全性的同时不明显损害下游任务的性能。

May, 2024

SafeInfer：大型语言模型的上下文自适应解码时间安全对齐

通过 SafeInfer 方法中的安全放大和安全引导解码阶段以及 HarmEval 评估，此篇研究论文旨在解决安全性不足、知识编辑引入风险等问题，提供安全的回应输出并遵守伦理指南。

Jun, 2024

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024