跳出规则:多轮对话中大型语言模型的安全漏洞
LLM 对话共指中的安全性漏洞研究,包括创建了一个包含 1,400 个问题的数据集,并在五种常用的开源 LLM 模型上进行了评估,结果表明在多轮共指安全攻击下,LLaMA2-Chat-7b 模型具有最高的攻击成功率为 56%,而 Mistral-7B-Instruct 模型具有最低的攻击成功率为 13.9%。
Jun, 2024
大型语言模型(LLMs)存在潜在的安全隐患,因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战,并针对意外和恶意的风险场景进行了探讨。实验结果显示,在多语言环境中,通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。
Oct, 2023
在本研究中,我们探讨了大型语言模型(LLMs)在安全性和道德用途方面的一个日益关注的问题。尽管这些模型有潜力,但它们可能被各种复杂的方法欺骗,产生有害或不道德的内容,其中包括 “越狱” 技术和有针对性的操纵。我们的研究集中在一个特定的问题上,即 LLMs 在生成以指令为中心的响应(如伪代码、程序或软件片段)与普通文本相比,会出现多大程度的偏差。我们引入了 TechHazardQA 数据集来研究这个问题,该数据集包含应以文本和以指令为中心的格式(如伪代码)作答的复杂查询,旨在识别出导致不道德响应的触发器。我们查询了一系列 LLMs,包括 Llama-2-13b、Llama-2-7b、Mistral-V2 和 Mistral 8X7B,并要求它们生成文本和以指令为中心的响应。我们以有害性评分指标以及 GPT-4 和人类的判断作为评估。总体而言,我们观察到要求 LLMs 生成以指令为中心的响应会在各个模型中使不道德响应的生成增加约 2-38%。作为额外的目标,我们还研究了使用 ROME 技术进行模型编辑的影响,这进一步增加了产生不良内容的倾向。具体而言,要求编辑后的 LLMs 生成以指令为中心的响应会在不同模型之间使不道德响应的生成增加约 3-16%。
Feb, 2024
语言模型在生成虚假和欺骗性推理时存在困难。我们提出了一种越狱攻击方法,通过利用这一缺陷来获取一个具有恶意输出的对齐语言模型。我们的方法在五个安全对齐的大型语言模型上进行了评估,与四种以前的越狱方法进行了比较,展示了竞争性能和更多有害的输出。我们认为这些发现可以扩展到模型安全、自验证和幻觉等领域。
Jul, 2024
本文探讨大型语言模型在多语言环境中的安全挑战,并讨论缓解此类问题的方法。通过比较先进的语言模型对高资源语言和低资源语言下恶意提示的响应,我们发现低资源语言中的恶意提示往往导致不安全的回答,并且语言模型对低资源语言的恶意提示产生更多的无关回答。此外,我们发现提高模型对高资源语言的训练并没有带来显著改善,表明跨语言对齐的瓶颈在于预训练阶段。我们的发现凸显了跨语言大型语言模型安全的挑战,并希望这些发现能指导未来的研究。
Jan, 2024
本研究综述了基于大型语言模型 (LLMs) 的多轮对话系统的研究进展,包括适应 LLMs 到下游任务的方法,最近在多轮对话系统中的 LLM-based 开放领域对话 (ODD) 和任务导向对话 (TOD) 系统的进展,并且讨论了 LLMs 的发展和对多轮对话系统需求增加所引起的一些未来重点和最近的研究问题。
Feb, 2024