自护:赋予 LLM 保护自身能力
通过使用语言模型验证内容,我们提出了一种简单的方法来防御对抗性攻击,从而使大型语言模型过滤其自己的回应,即使模型未经人类价值重新调整,也可以避免为用户呈现有害内容。
Aug, 2023
大型语言模型(LLMs)存在潜在的安全隐患,因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战,并针对意外和恶意的风险场景进行了探讨。实验结果显示,在多语言环境中,通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。
Oct, 2023
本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术,提出了一个潜在的越狱 Prompts 数据集,旨在全面研究大型语言模型的文本安全性和输出鲁棒性,结果表明当前的 LLMs 不仅偏爱某些指令动词,而且在显式正常指令中存在不同的越狱率,这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。
Jul, 2023
为了解决大型语言模型在破解攻击中的脆弱性,提出了 SmoothLLM 算法,通过对输入的随机扰动和聚合进行检测,降低了攻击成功率,并在攻击缓解上提供了可证明的保证。
Oct, 2023
本文研究大型语言模型中的安全问题,提出两种安全训练的失败模式,分别是竞争目标和广义不符合。作者发现,这些安全问题无法通过红队测试和安全培训解决,并提出需要将安全机制的复杂度与模型的能力相匹配。
Jul, 2023
本研究提出了形式主义和已知(和可能的)越狱攻击分类,并在开源和商业 LLM(如 GPT 3.5,OPT,BLOOM 和 FLAN-T5-xxl)上进行了现有越狱方法及其有效性的调查;我们进一步提出了一组有限的提示守卫,并讨论了其对已知攻击类型的有效性。
May, 2023
通过研究语言模型监管的方法和攻击,本文提出一种自动破解监管的方法,即引入语意防火墙概念并提供三种技术实现方式,从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性,为未来研究提供了启示。
Aug, 2023
通过针对大型语言模型的认知结构与过程进行专门设计的破解攻击,本文揭示了多语言认知过载、隐晦表达和因果推理等对大型语言模型的安全漏洞,实验证明这些攻击可以成功破解主要的研究模型,并且现有的防御策略不能有效地抵御这些恶意使用。
Nov, 2023