对齐之毒
通过直接操纵开放源代码的大型语言模型的生成过程,我们展示了它们容易被引导生成不受欢迎的内容,包括有害或有偏见信息甚至私人数据,这表明需要更先进的开源语言模型缓解策略。
Oct, 2023
开源大型语言模型(LLMs)的安全性需要加固以防止恶意攻击,本研究通过引入 Shadow Alignment 概念,展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性,并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。
Oct, 2023
通过推出一种推理时攻击框架,研究表明安全对齐也可能在对抗性操作下无意中促进有害结果,实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率,从而强调重评估安全对齐后的开源语言模型的重要性。
Feb, 2024
通过暴露大型语言模型存在的缺陷输出并进行彻底评估,该研究提出了一种根据错误分析的新型对齐策略,以完全理解其内部原因,并将有害回应转化为模型对齐的指令调整语料库,从而不仅使 LLMs 不再产生有缺陷的回应,还可训练其自我批评,并利用其判别有毒内容的内在能力,实验结果表明,该方法在安全指令跟踪方面优于传统对齐技术,同时保持卓越的效率。
Oct, 2023
我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源,质疑仅仅依赖复杂的对齐方法的有效性,并进一步主张将模态概念与传统的非模态概念相结合,为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。
Nov, 2023
当前的大型语言模型仍然容易受到对抗攻击,使其表现出不安全的行为,这一基本问题不仅对当前的人工智能系统尚未解决,而且在不严重削弱其能力的情况下可能难以解决,同时也对未来和更具能力的人工智能系统的安全性提出了担忧。
Nov, 2023
本篇研究探索大型的自然语言处理模型是否能够抵御用户故意输入的对抗性样本(adversarial examples)的攻击,进一步研究多模型模型在敌对攻击下的表现。结果发现,虽然当前的 NLP 攻击在某种程度上是无效的,但多模型模型很容易受到攻击,需要更好的 NLP 攻击方法来对抗对恶意输入的敌对控制。
Jun, 2023
通过 InferAligner 方法,在训练领域特定模型以及多模态的大语言模型时,有效降低了有害输入指令和越狱攻击的攻击成功率 (ASR),同时保持了下游任务性能的基本不变。
Jan, 2024
本文提出了一种名为行为期望范围(BEB)的理论方法,用于正式研究大型语言模型对齐的几种固有特性和限制,揭示了 LMM 对齐的根本局限性,并凸显了确保 AI 安全的可靠机制的必要性。
Apr, 2023