对抗越狱攻击的语言模型可靠性特征与评估

Aug, 2024

对抗越狱攻击的语言模型可靠性特征与评估

Characterizing and Evaluating the Reliability of LLMs against Jailbreak Attacks

Kexin Chen, Yi Liu, Dongxia Wang, Jiaying Chen, Wenhai Wang

TL;DR本研究旨在解决大型语言模型（LLMs）在面对越狱攻击时的可靠性问题，尽管已有的保护措施仍然不足以阻止此类攻击。论文提出了一种全面的评估框架，并通过对10种越狱策略的实验验证，发现所有测试的LLMs在某些策略下均表现出脆弱性，继而提供了增强其安全性的建议。这一研究为提高LLMs在越狱攻击下的安全性评估提供了宝贵的见解。

Abstract

Large Language Models (LLMs) have increasingly become pivotal in Content Generation with notable societal impact. These models hold the potential to generate content that could be deemed harmful.Efforts to mitiga

发现论文，激发创造

打开LLMs的潘多拉魔盒：通过表示工程越狱LLMs

利用表示工程的思想，我们提出了一种无需精心构建提示，不受模型微调影响，并可以广泛应用于任何开源LLMs的越狱方法，通过在多个主流LLMs上进行评估，实验结果证明了我们方法的显著有效性，并对此方法背后的技术进行了广泛深入的研究。

Jan, 2024

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括GPT-4和LLaMa在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

对LLM的越狱攻击进行全面评估

对大型语言模型(也称为LLMs)的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

LLM越狱攻击与防御技术--综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于Vicuna、LLama和GPT-3.5 Turbo三个不同语言模型的效果，并释放了数据集和测试框架，以促进LLM安全领域的进一步研究。

Feb, 2024

JailbreakBench：大型语言模型越狱鲁棒性评估基准

JailbreakBench is an open-sourced benchmark for evaluating jailbreak attacks on large language models, addressing challenges such as the lack of a standard evaluation practice, incomparable cost and success rate computation, and lack of reproducibility in existing works.

Mar, 2024

重新思考以评估语言模型破解

提出了三个指标来评估语言模型的越狱，分别是安全违规、信息性和相对真实性，并展示了这些指标与不同恶意用户的目标之间的相关性，通过预处理响应扩展了自然语言生成评估方法来计算这些指标，对来自三个恶意目的数据集和三个越狱系统产生的基准数据集进行了评估，与现有的越狱评估方法相比，实验证明我们的多方面评估方法在平均F1得分上提高了17%，我们的发现促使我们摆脱越狱问题的二元观点，引入更全面的评估来确保语言模型的安全性。

Apr, 2024

JailbreakLens：针对大型语言模型的越狱攻击的可视化分析

通过与领域专家合作，我们提出了一个辅助框架来简化对繁琐的破解分析过程，并设计了一个视觉分析系统，帮助用户评估模型安全性并识别模型弱点。

Apr, 2024

JailbreakEval: 评估大型语言模型遭受越狱攻击的综合工具包

这篇论文对监狱越狱评估方法进行了综合分析，提出了一个系统的分类法，并介绍了JailbreakEval工具包，该工具包可以简化监狱越狱研究的评估过程，推动社区内的监狱越狱评估标准的形成。

Jun, 2024

技术秘籍：LLM破解攻击基准测试

对大型语言模型中所存在的破解攻击进行评估，并提供一套基准测试框架来推动对防御增强型大型语言模型的攻击的标准化评估。

Jun, 2024

面向LLM的破解攻击的理解：表示空间分析

通过研究大型语言模型中的有害和无害提示在表示空间中的行为，探讨成功越狱攻击的内在特性，并利用隐藏表示引入现有越狱攻击的目标，通过实验证实上述假设。希望该研究能为理解大型语言模型如何理解有害信息提供新的见解。

Jun, 2024