对编码任务中大型语言模型的转移攻击和防御

Nov, 2023

对编码任务中大型语言模型的转移攻击和防御

Transfer Attacks and Defenses for Large Language Models on Coding Tasks

Chi Zhang, Zifan Wang, Ravi Mangal, Matt Fredrikson, Limin Jia...

TL;DR现代大型语言模型（LLMs）在编码任务中表现出令人印象深刻的能力，如 ChatGPT，改进了以前的神经网络代码模型，例如 code2seq 或 seq2seq，这些模型在执行诸如代码摘要和识别代码漏洞等任务时已经表现出有竞争力的结果。然而，这些以前的代码模型被显示为易受对抗性示例的攻击，即不改变程序语义的小的句法扰动，例如通过虚假条件包含 “死代码” 或添加无关紧要的打印语句，专为 “愚弄” 模型而设计。LLMs 也可能容易受到相同对抗性扰动的攻击，但迄今为止对此问题缺乏详细研究。本文旨在研究对 LLMs 的编码任务的对抗性扰动的影响。具体而言，我们研究通过对较小的代码模型进行白盒攻击生成的对抗性示例对 LLMs 的可转移性。此外，为了使 LLMs 对此类对手更加强大，而无需重新训练的成本，我们提出了基于提示的防御措施，其中修改提示以包括经过对抗性扰动的代码示例的附加信息和反转对抗性扰动的明确指示。我们的实验证明，使用较小的代码模型获得的对抗性示例确实具有可转移性，削弱了 LLMs 的性能。提出的防御措施显示出改善模型的韧性的潜力，为与代码相关的应用的 LLMs 提供更加稳健的防御解决方案铺平了道路。

Abstract

Modern large language models (LLMs), such as ChatGPT, have demonstrated impressive capabilities for coding tasks including writing and reasoning about code. They improve upon previous neural network models of cod

large language models coding tasks adversarial perturbations transferability prompt-based defenses

发现论文，激发创造

通过代码探索大型语言模型的安全泛化挑战

通过将自然语言输入转化为代码输入，CodeAttack 框架揭示了大型语言模型的安全泛化性问题，并发现了代码领域中的新安全风险，需要更健壮的安全对齐算法来匹配大型语言模型的代码功能。

Mar, 2024

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

对大规模语言模型的对抗欺骗攻击效率

使用五种不同的大型语言模型（LLMs）进行情感分类任务时，针对三种不同类型的对抗攻击，该研究分析了攻击的有效性、效率和实用性，发现词级攻击更有效，而字符级攻击则更实用且所需的改动和查询数量较少，因此在开发对抗性防御策略以训练更具鲁棒性的 LLMs 用于智能文本分类应用时需考虑这些差异。

Jun, 2024

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

会话蕴含任务的对抗攻击与防御

在这项研究中，我们将对抗性攻击结果视为模型的一个新（未见过的）领域，并将防御问题转化为如何提高模型在这个新领域的鲁棒性。我们关注会话蕴含任务，其中多轮自然语言对话是前提，通过对变换模型进行微调以预测给定对话的假设是真还是假。我们采用同义词交换作为攻击方法，并实施了一些微调策略，并提出了嵌入扰动损失作为提高模型鲁棒性的方法。最后，通过讨论自然语言处理中现实世界的对抗攻击，展示了我们工作的重要性。

May, 2024

排版引领语义多元化：跨多模态大型语言模型的对抗传递增强

本文提出了基于字体的语义转移攻击（TSTA），通过干扰多模态大型语言模型（MLLMs）所捕捉的视觉信息，以在有害词语插入和重要信息保护场景中展现优异性能。

May, 2024