改变提示的蝴蝶效应：小的变化与越狱对大型语言模型的影响

Jan, 2024

改变提示的蝴蝶效应：小的变化与越狱对大型语言模型的影响

The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Model Performance

Abel Salinas, Fred Morstatter

TL;DR在这项研究中，我们探究了提示的构建方式对大型语言模型的决策是否产生影响。我们通过一系列针对不同文本分类任务的提示变化进行了实验。研究发现，即使是最小的扰动，如在提示的末尾添加一个空格，都可能导致大型语言模型改变其回答。此外，要求以 XML 格式回应和常用的破解行为可能对大型语言模型标注的数据产生灾难性影响。

Abstract

large language models (LLMs) are regularly being used to label data across many domains and for myriad tasks. By simply asking the LLM for an answer, or ``prompting,'' practitioners are able to use LLMs to quickl

large language models prompting prompt variations text classification tasks data labeled by llms

发现论文，激发创造

现在做任何事情”：对大型语言模型中的自由研究提示进行特征化和评估

通过对 wild 中的 jailbreak prompts 进行第一次测量研究，我们发现了 jailbreak prompts 的独特特征以及其攻击策略，并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak prompts 的潜在危害，这为研究界和 LLM 供应商在推动更安全和监管的 LLMs 方面提供了指导。

Aug, 2023

不要听我说：理解和探索大型语言模型的越狱提示

通过系统化研究和用户调查，我们发现生成式 AI 技术中的大型语言模型 (LLMs) 存在滥用、绕过安全限制的风险，尤其是使用 jailbreak prompts 进行潜在有害内容的生成，为了应对这一问题，我们开发了一个基于人工智能的系统来自动化产生 jailbreak prompts 的过程。

Mar, 2024

通过模糊输入对大型语言模型进行越狱

通过采用 ObscurePrompt 方法，从模糊的文本入手，并利用强大的 LLM 进行迭代转换，增强攻击的稳健性，从而提高对 LLM 的破解效果，并改进先前的方法，以增强 LLM 的对齐性能。

Jun, 2024

亚毒问题：探索 LIM 在越狱尝试中的态度转变

通过设计和分析敏感问题，揭示了一个更有效的在 LLMs 中识别漏洞的方法，旨在推进 LLM 的安全，这不仅挑战了现有的越狱方法学，而且加强了 LLMs 对潜在攻击的防范。

Apr, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

JailbreakLens：针对大型语言模型的越狱攻击的可视化分析

通过与领域专家合作，我们提出了一个辅助框架来简化对繁琐的破解分析过程，并设计了一个视觉分析系统，帮助用户评估模型安全性并识别模型弱点。

Apr, 2024

通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

欺骗 LLMs 反抗：理解、分析和预防越狱

本研究提出了形式主义和已知（和可能的）越狱攻击分类，并在开源和商业 LLM（如 GPT 3.5，OPT，BLOOM 和 FLAN-T5-xxl）上进行了现有越狱方法及其有效性的调查；我们进一步提出了一组有限的提示守卫，并讨论了其对已知攻击类型的有效性。

May, 2023

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了 ReNeLLM 框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

大型语言模型是否具有变色龙特性？

大型语言模型（LLMs）是否具有其自己的世界观和个性倾向？对 LLM 模型回答主观问题的模拟进行了 100 多万次，将其回答与欧洲社会调查（ESS）的真实数据进行比较，结果表明问题引导对偏见和变异的影响是基本的，突出了主要的文化、年龄和性别偏见。文中还讨论了测量 LLMs 与调查数据差异的方法，如计算加权平均值和基于 Jaccard 相似性的一项新提出的测量。我们得出结论，在使用 LLMs 模拟个体决策或集体行为之前，分析问题引导的稳健性和变异性非常重要，因为它们的模拟能力充其量是近似的。

May, 2024