通过贪婪和基于梯度的搜索技术,自动产生敌对性后缀,实现对齐语言模型的攻击;我们发现这种攻击是可转移的,可以应用于各种公开发布的对齐语言模型,从而引发对如何防止生成不良信息的重要问题。
Jul, 2023
通过实验,我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性,并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。
Aug, 2023
安全性对齐、大型语言模型(LLMs)、手动越狱攻击、对抗性攻击、可解释对抗性攻击。
Oct, 2023
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
通过引入DeceptPrompt算法,该论文针对大型语言模型在代码生成任务中的致命弱点进行了广泛实验和分析,证实了其在诱导模型生成易受攻击代码方面的有效性,攻击成功率相比无前缀/后缀应用平均提高了50%。
Dec, 2023
我们提出了一种名为Prompt Adversarial Tuning (PAT)的方法来训练一个防御控制机制,将其作为用户提示的前缀来实施我们的防御策略,该方法在黑盒和白盒设置中表现有效,在几乎不影响操作效率的情况下,将高级攻击的成功率降低到几乎为0,同时仍然保持对简单问题的良性回答率为80%。我们的研究在LLM安全领域可能为未来的探索开辟新的视角。
Feb, 2024
通过将代码风格的指示替代自然语言指示,本文提供了更精确的指示,并增强了大语言模型的鲁棒性。同时,通过使用干净和对抗样本来构建上下文演示,我们进一步提高了大语言模型的鲁棒性。实验结果表明,我们的方法在八个鲁棒性数据集上持续优于自然语言指令的大语言模型。
LinkPrompt是一种通过基于梯度的波束搜索算法生成的自然的通用对抗触发器(UATs),能够有效地攻击目标预训练语言模型(PLMs)和基于提示的微调模型(PFMs)并保持触发器标记中的自然性。
Mar, 2024
通过借鉴转移式攻击的思想,结合渐变式对抗性提示生成过程,我们改进了自动生成的对抗性示例以攻击白盒大语言模型,取得了显著的性能提升,同时也提出了新的见解和适当的方法组合。
May, 2024
通过优化包含对抗性提示及其安全响应的数据集,我们提出了一个两阶段的对抗调整框架,用于增强大型语言模型在防御能力方面的广义性,实验证明了我们方法的优越性,并展示了它作为可传输防御机制的潜力。
Jun, 2024