往返翻译防御大型语言模型越狱攻击

Feb, 2024

往返翻译防御大型语言模型越狱攻击

Round Trip Translation Defence against Large Language Model Jailbreaking Attacks

Canaan Yung, Hadi Mohaghegh Dolatabadi, Sarah Erfani, Christopher Leckie

TL;DR通过往返翻译（RTT）方法防御大规模语言模型（LLM）上的社会工程攻击，提出了一种多功能、轻量级且可转移的算法，成功缓解了超过 70% 的攻击，并且减少了 MathsAttack 的攻击成功率近 40%。

Abstract

large language models (LLMs) are susceptible to social-engineered attacks that are human-interpretable but require a high level of comprehension for LLMs to counteract. Existing →

large language models social-engineered attacks round trip translation defensive measures adversarial prompt

发现论文，激发创造

通过反翻译来抵御 LLMs 的越狱攻击

通过后向翻译提出了一种新的防御方法，用于保护大型语言模型免受越狱攻击，该方法明显优于其他方法，并对良性输入提示的生成质量几乎没有影响。

Feb, 2024

使用大型语言模型进行往返翻译的自动程序修复新方法

通过大型语言模型实现的往返翻译可用于自动程序修复，修正语法错误并还原代码中的常见模式，具有在软件工程研究中的潜力。

Jan, 2024

基于双向翻译的生成真实对抗样本方法

利用 Doubly Round-Trip Translation 和 Masked Language Models 构建 NMT 对抗样本，有效提高 NMT 模型的鲁棒性。

Apr, 2022

迷失在翻译中：生成鲁棒对圆 - trip 翻译的对抗样本

通过进行逆序翻译及引入机器翻译，本研究论证了现有文本对抗攻击在翻译回路中的鲁棒性，并证明了翻译鲁棒性的重要性以及其对多语言对抗攻击研究的推动作用。

Jul, 2023

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

对编码任务中大型语言模型的转移攻击和防御

现代大型语言模型（LLMs）在编码任务中表现出令人印象深刻的能力，如 ChatGPT，改进了以前的神经网络代码模型，例如 code2seq 或 seq2seq，这些模型在执行诸如代码摘要和识别代码漏洞等任务时已经表现出有竞争力的结果。然而，这些以前的代码模型被显示为易受对抗性示例的攻击，即不改变程序语义的小的句法扰动，例如通过虚假条件包含 “死代码” 或添加无关紧要的打印语句，专为 “愚弄” 模型而设计。LLMs 也可能容易受到相同对抗性扰动的攻击，但迄今为止对此问题缺乏详细研究。本文旨在研究对 LLMs 的编码任务的对抗性扰动的影响。具体而言，我们研究通过对较小的代码模型进行白盒攻击生成的对抗性示例对 LLMs 的可转移性。此外，为了使 LLMs 对此类对手更加强大，而无需重新训练的成本，我们提出了基于提示的防御措施，其中修改提示以包括经过对抗性扰动的代码示例的附加信息和反转对抗性扰动的明确指示。我们的实验证明，使用较小的代码模型获得的对抗性示例确实具有可转移性，削弱了 LLMs 的性能。提出的防御措施显示出改善模型的韧性的潜力，为与代码相关的应用的 LLMs 提供更加稳健的防御解决方案铺平了道路。

Nov, 2023

跨语言转移的困境：通过指令调整在 LLMs 中的后门攻击的跨语言可迁移性

我们的研究重点关注跨语言背门攻击对多语言 LLM 的影响，特别研究在一个或两个语言的指令调整数据中添加恶意行为如何影响未被攻击的语言的输出。我们的实证分析表明，我们的方法在 mT5、BLOOM 和 GPT-3.5-turbo 等模型中非常有效，攻击成功率高，在多种场景中超过 95%。令人担忧的是，我们的发现还表明，较大的模型对可转移的跨语言背门攻击更易受攻击，这也适用于主要在英语数据上进行预训练的 LLM，如 Llama2、Llama3 和 Gemma。此外，我们的实验表明，即使经过改述，触发器仍然有效，背门机制在 25 种语言的跨语言响应环境中证明高度有效，攻击成功率平均达到 50%。我们的研究旨在强调当前多语言 LLM 存在的漏洞和重大安全风险，凸显有针对性的安全措施的迫切需求。

Apr, 2024

自我欺骗：大型语言模型语义防火墙的逆渗透

通过研究语言模型监管的方法和攻击，本文提出一种自动破解监管的方法，即引入语意防火墙概念并提供三种技术实现方式，从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性，为未来研究提供了启示。

Aug, 2023

对抗调整：为 LLMs 防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024