自我欺骗：大型语言模型语义防火墙的逆渗透

Aug, 2023

自我欺骗：大型语言模型语义防火墙的逆渗透

Self-Deception: Reverse Penetrating the Semantic Firewall of Large Language Models

Zhenhua Wang, Wei Xie, Kai Chen, Baosheng Wang, Zhiwen Gui...

TL;DR通过研究语言模型监管的方法和攻击，本文提出一种自动破解监管的方法，即引入语意防火墙概念并提供三种技术实现方式，从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性，为未来研究提供了启示。

Abstract

large language models (LLMs), such as ChatGPT, have emerged with astonishing capabilities approaching artificial general intelligence. While providing convenience for various societal needs, LLMs have also lowered the cost of generating harmful content. Consequently, LLM developers hav

large language models jailbreak semantic-level defenses semantic firewall self-deception attack

发现论文，激发创造

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。

Oct, 2023

使用词替代密码破解专有大型语言模型

大型语言模型容易受到称为 Jailbreak 的创新提示的影响，本文提出使用加密技术对越狱提示进行编码，实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42％，此外，我们还讨论了这些模型的过度防御性。

Feb, 2024

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

快速采用，隐含风险：大型语言模型定制的双重影响

我们的研究论文首次提出了针对与不受信任的定制大型语言模型（例如 GPTs）集成的应用程序的指令后门攻击，这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中，并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型（如 GPTs）的脆弱性和潜在风险。

Feb, 2024

欺骗 LLMs 反抗：理解、分析和预防越狱

本研究提出了形式主义和已知（和可能的）越狱攻击分类，并在开源和商业 LLM（如 GPT 3.5，OPT，BLOOM 和 FLAN-T5-xxl）上进行了现有越狱方法及其有效性的调查；我们进一步提出了一组有限的提示守卫，并讨论了其对已知攻击类型的有效性。

May, 2023

大型语言模型是不自觉的说真话者：利用谬误失误进行越狱攻击

语言模型在生成虚假和欺骗性推理时存在困难。我们提出了一种越狱攻击方法，通过利用这一缺陷来获取一个具有恶意输出的对齐语言模型。我们的方法在五个安全对齐的大型语言模型上进行了评估，与四种以前的越狱方法进行了比较，展示了竞争性能和更多有害的输出。我们认为这些发现可以扩展到模型安全、自验证和幻觉等领域。

Jul, 2024

通过语义平滑对抗越狱攻击的大型语言模型防御

防止大语言模型遭受越狱攻击的 SEMANTICSMOOTH 防御机制，在语义攻击方面取得了最先进的鲁棒性成果，并在指导遵循基准测试中保持强大的名义性能。

Feb, 2024

Imposter.AI：面向对齐大型语言模型的带有隐藏意图的对抗攻击

本研究揭示了一种利用人类对话策略从大型语言模型中提取有害信息的攻击机制，并通过实验证明了该方法优于传统攻击方法，引发了如何辨别对话中的恶意意图的重要问题。

Jul, 2024