指令层次结构:训练 LLMs 优先处理特权指令
通过实验,我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性,并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。
Aug, 2023
最近的大型语言模型在指令遵循的冲突情况下进行了调查和基准测试,对比了最流行的专有模型和不同大小的开源模型。实验表明,较大的模型在遵循指令方面表现最佳,并且对内部和上下文指令具有覆盖能力。然而,在进行长上下文的缩放时需要保持与困惑度边缘的显著缓冲区,以保持指令遵循能力。此外,提高指令遵循与遵循给定安全过滤器或指南的能力相互冲突,因此我们认为处理安全可信人工智能的最有效方法应该是在语言模型之外进行。
Feb, 2024
本研究提出了形式主义和已知(和可能的)越狱攻击分类,并在开源和商业 LLM(如 GPT 3.5,OPT,BLOOM 和 FLAN-T5-xxl)上进行了现有越狱方法及其有效性的调查;我们进一步提出了一组有限的提示守卫,并讨论了其对已知攻击类型的有效性。
May, 2023
我们的研究论文首次提出了针对与不受信任的定制大型语言模型(例如 GPTs)集成的应用程序的指令后门攻击,这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中,并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型(如 GPTs)的脆弱性和潜在风险。
Feb, 2024
我们介绍了一种黑盒提示优化方法,利用攻击者 LLM 代理来揭示受害者代理中比直接使用训练数据作为提示目标模型所揭示的更高水平的记忆,我们使用迭代的拒绝抽样优化过程来找到具有两个主要特征的基于指令的提示,即 (1) 最小程度地与训练数据重叠,以避免直接向模型呈现解决方案;(2) 最大化受害模型输出与训练数据的重叠,旨在诱使受害模型输出训练数据,我们观察到,与基于前缀 - 后缀测量的基准相比,我们的基于指令的提示生成的输出与训练数据重叠度更高达 23.7%,我们的发现表明,(1) 基于指令的模型可以暴露出与其基础模型一样多的预训练数据,甚至更多;(2) 原始训练数据之外的上下文可以导致信息泄漏;(3) 使用其他 LLM 提出的指令可能会开辟一种新的自动攻击的途径,需要进一步研究和探索。代码可以在此 URL 找到。
Mar, 2024
我们开发了一种新技术来减轻强偏好问题,通过将原始指令集产生一个弱化版本的提示并从弱化的提示中推断模型如何继续执行一个假设加强的指令集,我们将语言模型概念化为混合模型,并对 GPT-2、GPT-3、Llama 2 和 Mistral 等模型进行了应用,在四个任务中找到了 41/44 的改进,在所有 44 个组合中,完成任务比例的中值增加了 40%。
Jan, 2024
在本研究中,我们探讨了大型语言模型(LLMs)在安全性和道德用途方面的一个日益关注的问题。尽管这些模型有潜力,但它们可能被各种复杂的方法欺骗,产生有害或不道德的内容,其中包括 “越狱” 技术和有针对性的操纵。我们的研究集中在一个特定的问题上,即 LLMs 在生成以指令为中心的响应(如伪代码、程序或软件片段)与普通文本相比,会出现多大程度的偏差。我们引入了 TechHazardQA 数据集来研究这个问题,该数据集包含应以文本和以指令为中心的格式(如伪代码)作答的复杂查询,旨在识别出导致不道德响应的触发器。我们查询了一系列 LLMs,包括 Llama-2-13b、Llama-2-7b、Mistral-V2 和 Mistral 8X7B,并要求它们生成文本和以指令为中心的响应。我们以有害性评分指标以及 GPT-4 和人类的判断作为评估。总体而言,我们观察到要求 LLMs 生成以指令为中心的响应会在各个模型中使不道德响应的生成增加约 2-38%。作为额外的目标,我们还研究了使用 ROME 技术进行模型编辑的影响,这进一步增加了产生不良内容的倾向。具体而言,要求编辑后的 LLMs 生成以指令为中心的响应会在不同模型之间使不道德响应的生成增加约 3-16%。
Feb, 2024
通过使用第一个基准 BIPIA 来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法,我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击,导致 ASR 更高。在此基础上,我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法,使大型语言模型能够区分指令和外部内容,并忽略外部内容中的指令。实验结果表明,我们的黑盒防御方法可以有效降低 ASR,但无法完全阻止间接提示注入攻击,而我们的白盒防御方法可以将 ASR 几乎降低到零,对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。
Dec, 2023
本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术,提出了一个潜在的越狱 Prompts 数据集,旨在全面研究大型语言模型的文本安全性和输出鲁棒性,结果表明当前的 LLMs 不仅偏爱某些指令动词,而且在显式正常指令中存在不同的越狱率,这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。
Jul, 2023
使用 PromptInject 对 GPT-3 进行了安全性评估,发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性,导致潜在的风险
Nov, 2022