往返翻译防御大型语言模型越狱攻击
利用 Doubly Round-Trip Translation 和 Masked Language Models 构建 NMT 对抗样本,有效提高 NMT 模型的鲁棒性。
Apr, 2022
通过进行逆序翻译及引入机器翻译,本研究论证了现有文本对抗攻击在翻译回路中的鲁棒性,并证明了翻译鲁棒性的重要性以及其对多语言对抗攻击研究的推动作用。
Jul, 2023
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023
现代大型语言模型(LLMs)在编码任务中表现出令人印象深刻的能力,如 ChatGPT,改进了以前的神经网络代码模型,例如 code2seq 或 seq2seq,这些模型在执行诸如代码摘要和识别代码漏洞等任务时已经表现出有竞争力的结果。然而,这些以前的代码模型被显示为易受对抗性示例的攻击,即不改变程序语义的小的句法扰动,例如通过虚假条件包含 “死代码” 或添加无关紧要的打印语句,专为 “愚弄” 模型而设计。LLMs 也可能容易受到相同对抗性扰动的攻击,但迄今为止对此问题缺乏详细研究。本文旨在研究对 LLMs 的编码任务的对抗性扰动的影响。具体而言,我们研究通过对较小的代码模型进行白盒攻击生成的对抗性示例对 LLMs 的可转移性。此外,为了使 LLMs 对此类对手更加强大,而无需重新训练的成本,我们提出了基于提示的防御措施,其中修改提示以包括经过对抗性扰动的代码示例的附加信息和反转对抗性扰动的明确指示。我们的实验证明,使用较小的代码模型获得的对抗性示例确实具有可转移性,削弱了 LLMs 的性能。提出的防御措施显示出改善模型的韧性的潜力,为与代码相关的应用的 LLMs 提供更加稳健的防御解决方案铺平了道路。
Nov, 2023
我们的研究重点关注跨语言背门攻击对多语言 LLM 的影响,特别研究在一个或两个语言的指令调整数据中添加恶意行为如何影响未被攻击的语言的输出。我们的实证分析表明,我们的方法在 mT5、BLOOM 和 GPT-3.5-turbo 等模型中非常有效,攻击成功率高,在多种场景中超过 95%。令人担忧的是,我们的发现还表明,较大的模型对可转移的跨语言背门攻击更易受攻击,这也适用于主要在英语数据上进行预训练的 LLM,如 Llama2、Llama3 和 Gemma。此外,我们的实验表明,即使经过改述,触发器仍然有效,背门机制在 25 种语言的跨语言响应环境中证明高度有效,攻击成功率平均达到 50%。我们的研究旨在强调当前多语言 LLM 存在的漏洞和重大安全风险,凸显有针对性的安全措施的迫切需求。
Apr, 2024
通过研究语言模型监管的方法和攻击,本文提出一种自动破解监管的方法,即引入语意防火墙概念并提供三种技术实现方式,从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性,为未来研究提供了启示。
Aug, 2023
通过优化包含对抗性提示及其安全响应的数据集,我们提出了一个两阶段的对抗调整框架,用于增强大型语言模型在防御能力方面的广义性,实验证明了我们方法的优越性,并展示了它作为可传输防御机制的潜力。
Jun, 2024
通过广泛的实证研究,我们对多语言越狱攻击进行了深入探究,提出了一种新的语义保持算法来创建多语言越狱数据集,并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估,并实施了微调缓解方法。我们的发现显示出,我们的缓解策略显著增强了模型的防御能力,将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。
Jan, 2024