对齐之毒

Aug, 2023

The Poison of Alignment

Aibek Bekbayev, Sungbae Chun, Yerzat Dulat, James Yamazaki

TL;DR通过实验证明，内容安全问题角度来看，对齐对指令调整模型的性能有负面影响，尤其是在各种推理基准测试中，通过有对齐的答案进行调整会使性能下降 4-33%。

Abstract

From the perspective of content safety issues, alignment has shown to limit large language models' (LLMs) harmful content generation. This intentional method of reinforcing models to not respond to certain user i

content safety alignment instruction-tuned model supervised fine-tuning reasoning benchmarks

发现论文，激发创造

开源大型语言模型的安全性：对齐是否真的能防止滥用？

通过直接操纵开放源代码的大型语言模型的生成过程，我们展示了它们容易被引导生成不受欢迎的内容，包括有害或有偏见信息甚至私人数据，这表明需要更先进的开源语言模型缓解策略。

Oct, 2023

暗影对齐：篡改安全对齐语言模型的容易程度

开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。

Oct, 2023

模拟非对齐：大规模语言模型的安全对齐可能适得其反！

通过推出一种推理时攻击框架，研究表明安全对齐也可能在对抗性操作下无意中促进有害结果，实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率，从而强调重评估安全对齐后的开源语言模型的重要性。

Feb, 2024

从挫折中获益：通过错误分析对齐大型语言模型

通过暴露大型语言模型存在的缺陷输出并进行彻底评估，该研究提出了一种根据错误分析的新型对齐策略，以完全理解其内部原因，并将有害回应转化为模型对齐的指令调整语料库，从而不仅使 LLMs 不再产生有缺陷的回应，还可训练其自我批评，并利用其判别有毒内容的内在能力，实验结果表明，该方法在安全指令跟踪方面优于传统对齐技术，同时保持卓越的效率。

Oct, 2023

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

上下文中的对齐问题

当前的大型语言模型仍然容易受到对抗攻击，使其表现出不安全的行为，这一基本问题不仅对当前的人工智能系统尚未解决，而且在不严重削弱其能力的情况下可能难以解决，同时也对未来和更具能力的人工智能系统的安全性提出了担忧。

Nov, 2023

神经网络是否被对抗性对齐？

本篇研究探索大型的自然语言处理模型是否能够抵御用户故意输入的对抗性样本（adversarial examples）的攻击，进一步研究多模型模型在敌对攻击下的表现。结果发现，虽然当前的 NLP 攻击在某种程度上是无效的，但多模型模型很容易受到攻击，需要更好的 NLP 攻击方法来对抗对恶意输入的敌对控制。

Jun, 2023

大规模语言模型背景注入中的隐蔽而持久的不对齐

通过背门注入，在大型语言模型上进行隐秘而持续的非对准操作，可以成功通过安全评估，同时对抗重新对齐防御。

Nov, 2023

InferAligner: 通过跨模型指导实现无害性的推理时间对齐

通过 InferAligner 方法，在训练领域特定模型以及多模态的大语言模型时，有效降低了有害输入指令和越狱攻击的攻击成功率 (ASR)，同时保持了下游任务性能的基本不变。

Jan, 2024

大型语言模型中对齐的基本限制

本文提出了一种名为行为期望范围（BEB）的理论方法，用于正式研究大型语言模型对齐的几种固有特性和限制，揭示了 LMM 对齐的根本局限性，并凸显了确保 AI 安全的可靠机制的必要性。

Apr, 2023