AdvPrompter: LLMs的快速自适应敌对提示

Apr, 2024

AdvPrompter: LLMs的快速自适应敌对提示

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

Anselm Paulus, Arman Zharmagambetov, Chuan Guo, Brandon Amos, Yuandong Tian

TL;DR通过使用AdvPrompter方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快800倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Abstract

While recently large language models (llms) have achieved remarkable successes, they are vulnerable to certain jailbreaking attacks that l

发现论文，激发创造

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

你真的跟随我吗？评估大型语言模型的稳健性的对抗性指令

通过实验，我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性，并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。

Aug, 2023

AutoDAN: 大型语言模型的自动可解释的对抗攻击

安全性对齐、大型语言模型（LLMs）、手动越狱攻击、对抗性攻击、可解释对抗性攻击。

Oct, 2023

通过全球规模的提示破解竞赛揭示LLM系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

DeceptPrompt: 利用对抗性自然语言指令挖掘LLM驱动的代码生成

通过引入DeceptPrompt算法，该论文针对大型语言模型在代码生成任务中的致命弱点进行了广泛实验和分析，证实了其在诱导模型生成易受攻击代码方面的有效性，攻击成功率相比无前缀/后缀应用平均提高了50%。

Dec, 2023

勤奋的鲍勃通过及时对抗调整反击越狱

我们提出了一种名为Prompt Adversarial Tuning (PAT)的方法来训练一个防御控制机制，将其作为用户提示的前缀来实施我们的防御策略，该方法在黑盒和白盒设置中表现有效，在几乎不影响操作效率的情况下，将高级攻击的成功率降低到几乎为0，同时仍然保持对简单问题的良性回答率为80%。我们的研究在LLM安全领域可能为未来的探索开辟新的视角。

Feb, 2024

RoCoIns：通过代码风格指导提升大型语言模型的鲁棒性

通过将代码风格的指示替代自然语言指示，本文提供了更精确的指示，并增强了大语言模型的鲁棒性。同时，通过使用干净和对抗样本来构建上下文演示，我们进一步提高了大语言模型的鲁棒性。实验结果表明，我们的方法在八个鲁棒性数据集上持续优于自然语言指令的大语言模型。

Feb, 2024

LinkPrompt：基于提示的语言模型的自然且通用的对抗攻击

LinkPrompt是一种通过基于梯度的波束搜索算法生成的自然的通用对抗触发器（UATs），能够有效地攻击目标预训练语言模型（PLMs）和基于提示的微调模型（PFMs）并保持触发器标记中的自然性。

Mar, 2024

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

对抗调整：为LLMs防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024