通过生成不安全解码路径探讨大型语言模型的安全响应边界

Aug, 2024

通过生成不安全解码路径探讨大型语言模型的安全响应边界

Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation

Haoyu Wang, Bingzhe Wu, Yatao Bian, Yongzhe Chang, Xueqian Wang...

TL;DR本研究针对大型语言模型（LLMs）潜在的安全漏洞进行了深入探讨，特别是即使在表面上看似安全的情况下，也可能存在隐患。我们提出了一种新颖的解码策略——监狱逃生价值解码（JVD），通过成本值模型来检测和利用这些弱点，从而暴露出当前安全标准的局限性。这一发现提示我们，即便语言模型在防止有害内容方面表现良好，仍需保持警惕，因为它们可能被用于恶意活动。

Abstract

Large Language Models (LLMs) are implicit troublemakers. While they provide valuable insights and assist in problem-solving, they can also potentially serve as a resource for malicious activities. Implementing Safety Al

发现论文，激发创造

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了LLMs内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少LLMs生成的不安全内容。

Oct, 2023

SafeDecoding：通过安全感知解码防御越狱攻击

通过引入SafeDecoding，我们旨在通过安全感知的解码策略，防御LLMs遭受越狱攻击，生成对用户请求有帮助且无害的回应，从而在保持LLMs安全性的同时，显著降低越狱攻击的成功率和有害性，超过六种防御方法。

Feb, 2024

您的“安全”数据中有什么？：识别破坏安全性的良性数据

通过双向锚定方法优先选择与有害示例接近但远离良性示例的数据点，我们的方法有效地识别了在微调后可能降低模型安全性的良性数据子集。

Apr, 2024

WordGame：通过同时查询和响应模糊隐藏来实现高效和有效的LLM越狱

通过同时在查询和响应中进行模糊处理，我们提出了WordGame攻击，用于越过当前领先的专有和开源大型语言模型，包括最新的Claude-3、GPT-4和Llama-3模型的防护措施，从而破坏其对安全对齐的保护。

May, 2024

通过数据整理提高安全对齐的大型语言模型鲁棒性

我们提出了一种数据筛选框架，以增强大语言模型的安全对齐性，通过减少含有有害信息的数据的影响或增加在下游微调期间的越狱难度。在研究中，我们通过预训练或微调采用经过筛选的干净文本对大语言模型进行训练，观察到在安全对齐方面对有害查询的响应性明显改善，例如当使用含有5%有害实例的众包数据集进行预训练时，添加相同数量的经过筛选的文本显著减少了大语言模型提供有害响应的可能性，并将攻击成功率降低了71%。我们的研究代表了缓解基于训练的越狱风险以及加固大语言模型安全使用的重要进展。

May, 2024

ChatBug：由聊天模板引起的对齐LLM的常见漏洞

大型语言模型（LLMs）在遵循用户指令和进行对话方面具有重要意义。本文研究了聊天模板对LLMs安全对齐的影响，并发现了一个名为ChatBug的潜在漏洞。通过两种攻击方式，我们证明恶意用户可以利用ChatBug漏洞有效引导LLMs产生意外回应，并与现有越狱攻击结合提高攻击成功率。对抗性训练虽然可以有效减轻ChatBug漏洞，但牺牲了模型性能，因此需要平衡安全对齐和有用性之间的权衡。发展新的指令调优方法是未来研究的一个重要方向。

Jun, 2024

通过模糊输入对大型语言模型进行越狱

通过采用ObscurePrompt方法，从模糊的文本入手，并利用强大的LLM进行迭代转换，增强攻击的稳健性，从而提高对LLM的破解效果，并改进先前的方法，以增强LLM的对齐性能。

Jun, 2024

对抗越狱攻击的语言模型可靠性特征与评估

本研究旨在解决大型语言模型（LLMs）在面对越狱攻击时的可靠性问题，尽管已有的保护措施仍然不足以阻止此类攻击。论文提出了一种全面的评估框架，并通过对10种越狱策略的实验验证，发现所有测试的LLMs在某些策略下均表现出脆弱性，继而提供了增强其安全性的建议。这一研究为提高LLMs在越狱攻击下的安全性评估提供了宝贵的见解。

Aug, 2024

通过不安全解码路径生成探究大型语言模型的安全响应边界

本研究旨在揭示大型语言模型（LLMs）的潜在安全漏洞，尽管它们通常具备安全响应功能，实际上依然存在未被发现的风险。我们提出了一种名为监狱值解码（JVD）的新解码策略，该策略利用成本值模型作为检测器和攻击者，成功诱导安全模型生成有害内容。研究发现，LLMs可能被用作收集有害数据或发起隐秘攻击的工具，表明其安全性不足。

Aug, 2024

对齐大语言模型的安全层：LLM安全的关键

本研究针对对齐大语言模型在安全性方面的挑战，阐明了内部参数在安全维护中的作用，揭示了识别恶意查询的关键“安全层”。提出了一种新颖的微调方法——安全部分参数微调(SPPFT)，有效防止了安全性下降，同时节省计算资源，保持模型性能。

Aug, 2024