TAPI: 针对代码LLMs的目标特定和对抗性提示注入

Jul, 2024

TAPI: 针对代码LLMs的目标特定和对抗性提示注入

TAPI: Towards Target-Specific and Adversarial Prompt Injection against Code LLMs

Yuchen Yang, Hongwei Yao, Bingrun Yang, Yiling He, Yiming Li...

TL;DR此研究提出了一种新的攻击范式，即面向目标和对抗性提示注入（TAPI），针对代码导向的大型语言模型（Code LLMs）。TAPI在外部源代码中生成包含恶意指令信息的不可读注释，并将其隐藏为触发器。当用户利用Code LLMs完成包含触发器的代码时，模型将在特定位置生成攻击者指定的恶意代码片段。实验结果表明，我们的方法具有很高的威胁性（攻击成功率高达89.3％）和隐秘性（设计触发器时平均保存53.1％的令牌）。尤其是，我们成功攻击了一些著名的已部署代码完成集成应用程序，包括CodeGeex和Github Copilot。这进一步证实了我们攻击的现实威胁。

Abstract

Recently, code-oriented large language models (Code LLMs) have been widely and successfully used to simplify and facilitate code programming. With these tools, developers can easily generate desired complete functional codes based on incomplete code and natural language prompts. Howeve

发现论文，激发创造

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从Web中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型(LLMs)进行Prompt Injection攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

对编码任务中大型语言模型的转移攻击和防御

现代大型语言模型（LLMs）在编码任务中表现出令人印象深刻的能力，如ChatGPT，改进了以前的神经网络代码模型，例如code2seq或seq2seq，这些模型在执行诸如代码摘要和识别代码漏洞等任务时已经表现出有竞争力的结果。然而，这些以前的代码模型被显示为易受对抗性示例的攻击，即不改变程序语义的小的句法扰动，例如通过虚假条件包含“死代码”或添加无关紧要的打印语句，专为“愚弄”模型而设计。LLMs也可能容易受到相同对抗性扰动的攻击，但迄今为止对此问题缺乏详细研究。本文旨在研究对LLMs的编码任务的对抗性扰动的影响。具体而言，我们研究通过对较小的代码模型进行白盒攻击生成的对抗性示例对LLMs的可转移性。此外，为了使LLMs对此类对手更加强大，而无需重新训练的成本，我们提出了基于提示的防御措施，其中修改提示以包括经过对抗性扰动的代码示例的附加信息和反转对抗性扰动的明确指示。我们的实验证明，使用较小的代码模型获得的对抗性示例确实具有可转移性，削弱了LLMs的性能。提出的防御措施显示出改善模型的韧性的潜力，为与代码相关的应用的LLMs提供更加稳健的防御解决方案铺平了道路。

Nov, 2023

通过全球规模的提示破解竞赛揭示LLM系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

对大型语言模型间接提示注入攻击的基准测试与防御

通过使用第一个基准BIPIA来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击，导致ASR更高。在此基础上，我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法，使大型语言模型能够区分指令和外部内容，并忽略外部内容中的指令。实验结果表明，我们的黑盒防御方法可以有效降低ASR，但无法完全阻止间接提示注入攻击，而我们的白盒防御方法可以将ASR几乎降低到零，对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。

Dec, 2023

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

大型语言模型中的漏洞和保护探索: 调查

大型语言模型是各种人工智能应用中的关键组件，理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了LLMs的安全挑战，重点关注两个主要领域：Prompt Hacking和Adversarial Attacks，每个领域都有特定类型的威胁。通过对Prompt Hacking和Adversarial Attacks的分析，研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战，并讨论了保护LLMs免受这些威胁的强大防御框架。通过详细阐述这些安全问题，调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。

Jun, 2024

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

模型划图：评估对基于语言模型的编程助手的对抗攻击的影响

LLM-based编程助手可以加快编程速度，但可能引入更多安全漏洞。我们介绍了恶意编程提示（MaPP）攻击，通过向编程任务的提示中添加少量文本（小于500字节），我们展示了我们的提示策略如何使LLM在编写其他正确代码的同时添加漏洞。我们在七个常见LLM上评估了三个提示，并使用HumanEval基准测试发现我们的提示在广泛范围内有效，不需要针对不同LLM进行定制化。此外，最适合HumanEval的LLM也最适合遵循我们的恶意指令，这表明简单扩展语言模型无法防止MaPP攻击。通过16种情景中八个CWE的数据集，我们发现MaPP攻击在各种模型上实施特定和有针对性的漏洞也是有效的。我们的工作强调了保护LLM提示免受操纵的需求，并且需要对借助LLMs生成的代码进行严格审计。

Jul, 2024