DeceptPrompt: 利用对抗性自然语言指令挖掘 LLM 驱动的代码生成

Dec, 2023

DeceptPrompt: 利用对抗性自然语言指令挖掘 LLM 驱动的代码生成

DeceptPrompt: Exploiting LLM-driven Code Generation via Adversarial Natural Language Instructions

Fangzhou Wu, Xiaogeng Liu, Chaowei Xiao

TL;DR通过引入 DeceptPrompt 算法，该论文针对大型语言模型在代码生成任务中的致命弱点进行了广泛实验和分析，证实了其在诱导模型生成易受攻击代码方面的有效性，攻击成功率相比无前缀 / 后缀应用平均提高了 50%。

Abstract

With the advancement of large language models (LLMs), significant progress has been made in code generation, enabling LLMs to transform natural language into programming code. These Code LLMs have been widely acc

large language models code generation vulnerable code adversarial natural language instructions deceptprompt

发现论文，激发创造

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

探索 LLM 生成的虚假新闻的欺骗力：对现实世界检测挑战的研究

最近大规模语言模型（LLMs）的进展使得虚假新闻的制造成为可能，本研究旨在确定提示技术是否能够有效缩小 LLM 生成的虚假新闻的欺骗性差距，通过提出一种名为条件变分自编码类提示（VLPrompt）的强大虚假新闻攻击方法，该方法无需额外的数据采集，并且保持了上下文的一致性和原始文本的细节。为了推动 VLPrompt 攻击的检测研究，我们创建了一个新的数据集名为 VLPrompt 虚假新闻（VLPFN），其中包含真实文本和假文本。我们进行了各种检测方法和新颖的人类研究指标的实验，来评估它们在我们的数据集上的性能，得出了众多发现。

Mar, 2024

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

NLPerturbator：研究代码 LLMs 对自然语言变化的稳健性

本文研究了大型语言模型在现实场景中自然语言描述的变化对于代码生成的影响，并提出了一个自动化框架 NLPerturbator 来对不同类别的描述进行扰动，发现扰动后的描述可以显著降低代码生成的性能。研究强调了提高大型语言模型对于现实场景中描述变化的鲁棒性的重要性，以及构建描述时的细致性。

Jun, 2024

DrAttack: 强大的 LLM 越狱程序的提示分解与重构

该研究论文提出了一种自动提示分解和重构框架（DrAttack），通过将恶意提示分解为子提示，并通过上下文学习和同义词搜索来实现重新组装，从而有效地模糊其恶意意图，以提高大语言模型的入侵成功率。在多个开源和闭源大语言模型上的实证研究表明，DrAttack 能够显著降低查询次数，并在仅使用 15 个查询时，在 GPT-4 上获得了 78.0％的成功率，超过了以前的最佳攻击方法的 33.1％。

Feb, 2024

对编码任务中大型语言模型的转移攻击和防御

现代大型语言模型（LLMs）在编码任务中表现出令人印象深刻的能力，如 ChatGPT，改进了以前的神经网络代码模型，例如 code2seq 或 seq2seq，这些模型在执行诸如代码摘要和识别代码漏洞等任务时已经表现出有竞争力的结果。然而，这些以前的代码模型被显示为易受对抗性示例的攻击，即不改变程序语义的小的句法扰动，例如通过虚假条件包含 “死代码” 或添加无关紧要的打印语句，专为 “愚弄” 模型而设计。LLMs 也可能容易受到相同对抗性扰动的攻击，但迄今为止对此问题缺乏详细研究。本文旨在研究对 LLMs 的编码任务的对抗性扰动的影响。具体而言，我们研究通过对较小的代码模型进行白盒攻击生成的对抗性示例对 LLMs 的可转移性。此外，为了使 LLMs 对此类对手更加强大，而无需重新训练的成本，我们提出了基于提示的防御措施，其中修改提示以包括经过对抗性扰动的代码示例的附加信息和反转对抗性扰动的明确指示。我们的实验证明，使用较小的代码模型获得的对抗性示例确实具有可转移性，削弱了 LLMs 的性能。提出的防御措施显示出改善模型的韧性的潜力，为与代码相关的应用的 LLMs 提供更加稳健的防御解决方案铺平了道路。

Nov, 2023

基于优化的提示注入攻击 LLM-as-a-Judge

LLM-as-a-Judge 与大型语言模型相关的文本信息，存在着优于传统人工评估的表现，并且对于注入攻击的鲁棒性依然具有开放性问题。本研究引入一种名为 JudgeDeceiver 的基于优化的注入攻击方法，精确地针对 LLM-as-a-Judge 的决策过程进行攻击，利用优化算法自动化生成对抗序列，实现有针对性和有效的模型评估操纵，相较于手工注入攻击，本方法表现出优越的效果，对 LLM 基于判断系统的当前安全方法构成重大挑战。通过广泛实验，展示了 JudgeDeceiver 在不同案例中改变决策结果的能力，强调了 LLM-as-a-Judge 系统对基于优化的注入攻击的脆弱性。

Mar, 2024

与提示问题的交互：使用大型语言模型进行编程教学的新方法

通过 Prompt Problems 的方法，我们提出了一种新的教授编程的方式，学生可以通过将问题转化为语言模型（LLMs）所能理解的提示来解决编程问题，并且我们展示了这个工具的设计、学生使用情况以及将 LLMs 整合到设计工具中所带来的新型编程问题和洞见。

Jan, 2024