迫使语言模型(LLMs)做和透露(几乎)任何事情
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。
Feb, 2024
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
本研究提出了形式主义和已知(和可能的)越狱攻击分类,并在开源和商业 LLM(如 GPT 3.5,OPT,BLOOM 和 FLAN-T5-xxl)上进行了现有越狱方法及其有效性的调查;我们进一步提出了一组有限的提示守卫,并讨论了其对已知攻击类型的有效性。
May, 2023
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs 成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖 LLMs 的(半)自主系统与现有系统和安全措施的交互带来了重要挑战。
Feb, 2024
大型语言模型的伦理标准与人类价值的对齐可以通过模型输出日志的滥用来被破坏,我们提出的模型审问方法能够揭示隐藏在输出日志中的有害回复,有效性达到 92%,速度快 10 到 20 倍,对编码任务也适用。
Dec, 2023
通过识别安全微调中的偏差漏洞并设计一种称为 DRA(伪装和重构攻击)的黑盒越狱方法,我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果,并展示了最先进的越狱成功率和攻击效率,特别是在 LLM 聊天机器人 GPT-4 上,DRA 拥有 90%的攻击成功率。
Feb, 2024
通过优化包含对抗性提示及其安全响应的数据集,我们提出了一个两阶段的对抗调整框架,用于增强大型语言模型在防御能力方面的广义性,实验证明了我们方法的优越性,并展示了它作为可传输防御机制的潜力。
Jun, 2024
通过研究大型语言模型中的有害和无害提示在表示空间中的行为,探讨成功越狱攻击的内在特性,并利用隐藏表示引入现有越狱攻击的目标,通过实验证实上述假设。希望该研究能为理解大型语言模型如何理解有害信息提供新的见解。
Jun, 2024
使用来自攻击模型的嵌入和优化过程插入模型词汇,我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5,并显示了我们的方法具有不易被察觉的特点,且仅需插入单个词汇即可进行攻击,我们还证明可以使用不同于目标模型的模型进行攻击。
Apr, 2024