通过向大型语言模型注入木马激活向量,我们提出了一种名为后门激活攻击的新型攻击框架,使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵,该方法在主要的对齐任务上表现出高度的有效性,并且几乎不会给攻击效率增加任何开销,同时讨论了对抗此类激活攻击的潜在对策。
Nov, 2023
开源大型语言模型(LLMs)的安全性需要加固以防止恶意攻击,本研究通过引入 Shadow Alignment 概念,展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性,并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。
Oct, 2023
通过直接操纵开放源代码的大型语言模型的生成过程,我们展示了它们容易被引导生成不受欢迎的内容,包括有害或有偏见信息甚至私人数据,这表明需要更先进的开源语言模型缓解策略。
通过实验证明,内容安全问题角度来看,对齐对指令调整模型的性能有负面影响,尤其是在各种推理基准测试中,通过有对齐的答案进行调整会使性能下降 4-33%。
Aug, 2023
我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源,质疑仅仅依赖复杂的对齐方法的有效性,并进一步主张将模态概念与传统的非模态概念相结合,为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。
这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击,系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言,作者提出了三种攻击机制和相应的后门优化方法,以攻击 LLM 决策管道中的不同组件:单词注入、场景操纵和知识注入。作者进行了广泛的实验,并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后,作者批评了自己提出方法的优点和缺点,突出了 LLM 在决策任务中固有的漏洞,并评估了保护 LLM 决策系统的潜在防御方法。
May, 2024
通过暴露大型语言模型存在的缺陷输出并进行彻底评估,该研究提出了一种根据错误分析的新型对齐策略,以完全理解其内部原因,并将有害回应转化为模型对齐的指令调整语料库,从而不仅使 LLMs 不再产生有缺陷的回应,还可训练其自我批评,并利用其判别有毒内容的内在能力,实验结果表明,该方法在安全指令跟踪方面优于传统对齐技术,同时保持卓越的效率。
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
Jun, 2024
我们介绍了一种低资源安全增强方法,用于对齐大型语言模型(LLMs),无需受过监督的精调或来自人类反馈的强化学习。我们的主要思想是利用知识蒸馏从现有的良好对齐的 LLMs 中提取对齐信息,并以即插即用的方式整合到未对齐的 LLMs 中。通过使用增量调试来识别有效蒸馏所需的关键知识组成部分的方法,我们的方法在有害问题数据集上显著提高了平均防御成功率,约为 14.41%,最高可达 51.39%,在 17 个未对齐的预训练 LLMs 中,而不会损害性能。
本文研究针对大型语言模型的对齐微调对模型的影响,并通过理论和实证分析回答了这个问题。我们发现对齐微调过程对对齐的破坏程度远超于预训练,可能是数量级上的差距,从而导致模型性能迅速下降并最终恢复到预训练阶段的分布,同时发现模型的弹性与模型大小增加和预训练数据的扩展具有正相关性。这一发现表明了驯化大型语言模型固有的弹性的重要性,从而克服大型语言模型对对齐微调的抵抗。