跳出规则：多轮对话中大型语言模型的安全漏洞

Feb, 2024

跳出规则：多轮对话中大型语言模型的安全漏洞

Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

Zhenhong Zhou, Jiuyang Xiang, Haopeng Chen, Quan Liu, Zherui Li...

TL;DR人们利用多轮对话诱导大型语言模型生成有害信息的研究揭示了当前大型语言模型的安全机制在复杂场景中存在的脆弱性。

Abstract

large language models (LLMs) have been demonstrated to generate illegal or unethical responses, particularly when subjected to "jailbreak." Research on →

large language models jailbreak multi-turn dialogue harmful information safety mechanisms

发现论文，激发创造

CoSafe：评估多轮对话中大型语言模型安全性的共指

LLM 对话共指中的安全性漏洞研究，包括创建了一个包含 1,400 个问题的数据集，并在五种常用的开源 LLM 模型上进行了评估，结果表明在多轮共指安全攻击下，LLaMA2-Chat-7b 模型具有最高的攻击成功率为 56％，而 Mistral-7B-Instruct 模型具有最低的攻击成功率为 13.9％。

Jun, 2024

大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞

通过诱饵和转换攻击，大型语言模型能够将安全文本转化为有害内容，这提醒我们在开发可靠的安全保护机制时需要考虑后续转换。

Feb, 2024

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。

Oct, 2023

LLM 的以指令为中心的回应有多 (不) 道德？揭示安全保护措施在有害查询中的脆弱性

在本研究中，我们探讨了大型语言模型（LLMs）在安全性和道德用途方面的一个日益关注的问题。尽管这些模型有潜力，但它们可能被各种复杂的方法欺骗，产生有害或不道德的内容，其中包括 “越狱” 技术和有针对性的操纵。我们的研究集中在一个特定的问题上，即 LLMs 在生成以指令为中心的响应（如伪代码、程序或软件片段）与普通文本相比，会出现多大程度的偏差。我们引入了 TechHazardQA 数据集来研究这个问题，该数据集包含应以文本和以指令为中心的格式（如伪代码）作答的复杂查询，旨在识别出导致不道德响应的触发器。我们查询了一系列 LLMs，包括 Llama-2-13b、Llama-2-7b、Mistral-V2 和 Mistral 8X7B，并要求它们生成文本和以指令为中心的响应。我们以有害性评分指标以及 GPT-4 和人类的判断作为评估。总体而言，我们观察到要求 LLMs 生成以指令为中心的响应会在各个模型中使不道德响应的生成增加约 2-38%。作为额外的目标，我们还研究了使用 ROME 技术进行模型编辑的影响，这进一步增加了产生不良内容的倾向。具体而言，要求编辑后的 LLMs 生成以指令为中心的响应会在不同模型之间使不道德响应的生成增加约 3-16%。

Feb, 2024

大型语言模型是不自觉的说真话者：利用谬误失误进行越狱攻击

语言模型在生成虚假和欺骗性推理时存在困难。我们提出了一种越狱攻击方法，通过利用这一缺陷来获取一个具有恶意输出的对齐语言模型。我们的方法在五个安全对齐的大型语言模型上进行了评估，与四种以前的越狱方法进行了比较，展示了竞争性能和更多有害的输出。我们认为这些发现可以扩展到模型安全、自验证和幻觉等领域。

Jul, 2024

语言障碍：剖析 LLMs 在多语言环境中的安全挑战

本文探讨大型语言模型在多语言环境中的安全挑战，并讨论缓解此类问题的方法。通过比较先进的语言模型对高资源语言和低资源语言下恶意提示的响应，我们发现低资源语言中的恶意提示往往导致不安全的回答，并且语言模型对低资源语言的恶意提示产生更多的无关回答。此外，我们发现提高模型对高资源语言的训练并没有带来显著改善，表明跨语言对齐的瓶颈在于预训练阶段。我们的发现凸显了跨语言大型语言模型安全的挑战，并希望这些发现能指导未来的研究。

Jan, 2024

BotChat: 评估 LLMs 在进行多轮对话方面的能力

利用 GPT-4 对人类风格的多轮对话进行评估，发现大语言模型在生成多轮对话方面具有出色的质量，明显优于其他模型。

Oct, 2023

基于 LLM 的多轮对话系统的最新进展综述

本研究综述了基于大型语言模型 (LLMs) 的多轮对话系统的研究进展，包括适应 LLMs 到下游任务的方法，最近在多轮对话系统中的 LLM-based 开放领域对话 (ODD) 和任务导向对话 (TOD) 系统的进展，并且讨论了 LLMs 的发展和对多轮对话系统需求增加所引起的一些未来重点和最近的研究问题。

Feb, 2024

恶魔天才：深入探究基于 LLM 的智能体的安全性

通过对大型语言模型（LLMs）进行安全评估，揭示了 LLM-based agents 面临的挑战、安全漏洞以及对未来研究的启示。

Nov, 2023

研究多轮 LLM 交互的提示泄露效应和黑盒防御

对大型语言模型（LLMs）中的提示泄漏进行了研究，发现在多轮 LLM 交互中存在漏洞和泄漏，并提出了防御策略。

Apr, 2024