不可能的任务：对大规模语言模型越狱的统计视角

Aug, 2024

不可能的任务：对大规模语言模型越狱的统计视角

Mission Impossible: A Statistical Perspective on Jailbreaking LLMs

Jingtong Su, Julia Kempe, Karen Ullrich

TL;DR本文研究了大规模语言模型(LLMs)在偏好对齐过程中可能出现的越狱现象，指出现有方法未能有效防止有害行为的生成。我们提出了一种新的统计对齐概念E-RLHF，旨在安全响应的可能性上更具优势，并在多个对齐问题的实证研究中优于传统方法，而不增加额外的训练成本。

Abstract

Large Language Models (LLMs) are trained on a deluge of text data with limited quality control. As a result, LLMs can exhibit unintended or even harmful behaviours, such as leaking information, fake news or hate speech. Countermeasures, commonly referred to as →

发现论文，激发创造

潜在破解: 用于评估大型语言模型文本安全和输出鲁棒性的基准测试

本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术，提出了一个潜在的越狱Prompts数据集，旨在全面研究大型语言模型的文本安全性和输出鲁棒性，结果表明当前的LLMs不仅偏爱某些指令动词，而且在显式正常指令中存在不同的越狱率，这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。

Jul, 2023

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

通过强鲁棒对齐的LLM防御对齐破坏攻击

最近，大型语言模型（LLMs）取得了明显的进展，并在各个领域得到广泛应用。然而，人们越来越担心LLMs可能被滥用以生成有害或恶意内容。本研究介绍了一种抵御潜在破坏对齐的攻击的强韧对齐语言模型（RA-LLM），它可以直接在现有的对齐语言模型上构建，无需进行昂贵的重训练或微调过程。此外，我们还提供了对RA-LLM的理论分析，以验证其在抵御破坏对齐攻击方面的有效性。通过对开源大型语言模型进行的实际实验，我们证明RA-LLM可以成功抵御最先进的对抗性提示和流行的手工破解提示，将其攻击成功率从近100％降低到约10％或更低。

Sep, 2023

通过利用生成技术实现对开源LLMs的灾难性越狱

通过改变文本生成策略，我们提出一种新的攻击方法（生成利用攻击），成功地使11种语言模型的对齐率从0%提高到超过95%；我们还提出了一种有效的对齐方法，可在攻击下合理降低对齐失误率。这项研究强烈呼吁在发布开源大型语言模型之前进行更全面的红队测试和更好的对齐方式。

Oct, 2023

JailbreakBench：大型语言模型越狱鲁棒性评估基准

JailbreakBench is an open-sourced benchmark for evaluating jailbreak attacks on large language models, addressing challenges such as the lack of a standard evaluation practice, incomparable cost and success rate computation, and lack of reproducibility in existing works.

Mar, 2024

PARDEN，你能重复一遍吗？通过重复防御越狱

本文提出了一种名为PARDEN的方法，通过要求模型重复自己的输出来检测和减少Large Language Models（LLMs）的安全风险，该方法在监测入狱风险方面明显优于现有方法。

May, 2024

通过数据整理提高安全对齐的大型语言模型鲁棒性

我们提出了一种数据筛选框架，以增强大语言模型的安全对齐性，通过减少含有有害信息的数据的影响或增加在下游微调期间的越狱难度。在研究中，我们通过预训练或微调采用经过筛选的干净文本对大语言模型进行训练，观察到在安全对齐方面对有害查询的响应性明显改善，例如当使用含有5%有害实例的众包数据集进行预训练时，添加相同数量的经过筛选的文本显著减少了大语言模型提供有害响应的可能性，并将攻击成功率降低了71%。我们的研究代表了缓解基于训练的越狱风险以及加固大语言模型安全使用的重要进展。

May, 2024

通过模糊输入对大型语言模型进行越狱

通过采用ObscurePrompt方法，从模糊的文本入手，并利用强大的LLM进行迭代转换，增强攻击的稳健性，从而提高对LLM的破解效果，并改进先前的方法，以增强LLM的对齐性能。

Jun, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

对抗越狱攻击的语言模型可靠性特征与评估

本研究旨在解决大型语言模型（LLMs）在面对越狱攻击时的可靠性问题，尽管已有的保护措施仍然不足以阻止此类攻击。论文提出了一种全面的评估框架，并通过对10种越狱策略的实验验证，发现所有测试的LLMs在某些策略下均表现出脆弱性，继而提供了增强其安全性的建议。这一研究为提高LLMs在越狱攻击下的安全性评估提供了宝贵的见解。

Aug, 2024