大型语言模型中非标准 Unicode 字符对安全和理解的影响

May, 2024

大型语言模型中非标准 Unicode 字符对安全和理解的影响

Impact of Non-Standard Unicode Characters on Security and Comprehension in Large Language Models

Johan S Daniel, Anand Pal

TL;DR通过比较分析十五个不同模型的表现，我们揭示了这些模型固有的脆弱性，挑战了它们人类级语言理解的观念，并探讨了非标准 Unicode 字符对 LLMs 的影响及其在最佳性能 LLMs 上的保护机制，包括 GPT-4、Gemini 1.5 Pro、LlaMA-3-70B 和 Claude 3 Opus。

Abstract

The advancement of large language models has significantly improved natural language processing. However, challenges such as jailbreaks (prompt injections that cause an LLM to follow instructions contrary to its

large language models jailbreaks hallucinations comprehension errors non-standard unicode characters

发现论文，激发创造

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。

Oct, 2023

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

利用阿拉伯音译和阿拉伯数字输入赋予 LLM 释放权限

这项研究识别了大型语言模型（LLMs）对 “越狱” 攻击的潜在漏洞，特别关注阿拉伯语及其不同形式。我们的调查拓宽了研究范围，探究了阿拉伯语言。我们最初在标准阿拉伯语上测试了 AdvBench 基准测试，发现即使采用前缀注入等提示操纵技术，也无法引发 LLMs 生成不安全内容。然而，当使用阿拉伯语转写和聊天缩写（或阿拉伯注音文字）时，我们发现在 OpenAI GPT-4 和 Anthropic Claude 3 Sonnet 等平台上可以生成不安全内容。我们的发现表明，使用阿拉伯语及其不同形式可能会暴露可能隐藏的信息，从而可能增加越狱攻击的风险。我们假设这种暴露可能是由于模型与特定单词的学习连接，强调需要在所有语言形式中进行更全面的安全培训。

Jun, 2024

欺骗 LLMs 反抗：理解、分析和预防越狱

本研究提出了形式主义和已知（和可能的）越狱攻击分类，并在开源和商业 LLM（如 GPT 3.5，OPT，BLOOM 和 FLAN-T5-xxl）上进行了现有越狱方法及其有效性的调查；我们进一步提出了一组有限的提示守卫，并讨论了其对已知攻击类型的有效性。

May, 2023

现在做任何事情”：对大型语言模型中的自由研究提示进行特征化和评估

通过对 wild 中的 jailbreak prompts 进行第一次测量研究，我们发现了 jailbreak prompts 的独特特征以及其攻击策略，并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak prompts 的潜在危害，这为研究界和 LLM 供应商在推动更安全和监管的 LLMs 方面提供了指导。

Aug, 2023

使用词替代密码破解专有大型语言模型

大型语言模型容易受到称为 Jailbreak 的创新提示的影响，本文提出使用加密技术对越狱提示进行编码，实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42％，此外，我们还讨论了这些模型的过度防御性。

Feb, 2024

越狱动物园：关于越狱大型语言和视觉 - 语言模型的调查、景观和展望

通过开展这项综述研究，我们对人工智能中的大型语言模型 (LLM) 和视觉语言模型 (VLM) 的越来越广泛的应用进行了全面审视，特别关注了破解 (jailbreaking) 的发展和相应的防御机制。通过理解这些漏洞，我们提出了未来研究的方向，以增强 LLMs 和 VLMs 的安全框架。我们的研究结果强调了整合破解策略和防御解决方案的统一视角对于促进下一代语言模型的健全、安全和可靠环境的必要性。

Jun, 2024

通过密码字符对大型语言模型进行越狱以对抗审核管控

引入 JAMBench 作为一个有害行为基准测试，通过 160 个手工制作的指令来触发和评估适度保护措施；提出了 JAM 方法，通过越过输入级别的过滤器和生成密文字符来绕过输出级别的过滤器，攻击适度保护措施。经过对四个 LLMs 的广泛实验表明，JAM 比基准模型实现更高的越狱成功率（约 19.88 倍）和更低的过滤率（约 1/6 倍）。

May, 2024