模型划图：评估对基于语言模型的编程助手的对抗攻击的影响

Jul, 2024

模型划图：评估对基于语言模型的编程助手的对抗攻击的影响

MaPPing Your Model: Assessing the Impact of Adversarial Attacks on LLM-based Programming Assistants

John Heibel, Daniel Lowd

TL;DRLLM-based编程助手可以加快编程速度，但可能引入更多安全漏洞。我们介绍了恶意编程提示（MaPP）攻击，通过向编程任务的提示中添加少量文本（小于500字节），我们展示了我们的提示策略如何使LLM在编写其他正确代码的同时添加漏洞。我们在七个常见LLM上评估了三个提示，并使用HumanEval基准测试发现我们的提示在广泛范围内有效，不需要针对不同LLM进行定制化。此外，最适合HumanEval的LLM也最适合遵循我们的恶意指令，这表明简单扩展语言模型无法防止MaPP攻击。通过16种情景中八个CWE的数据集，我们发现MaPP攻击在各种模型上实施特定和有针对性的漏洞也是有效的。我们的工作强调了保护LLM提示免受操纵的需求，并且需要对借助LLMs生成的代码进行严格审计。

Abstract

llm-based programming assistants offer the promise of programming faster but with the risk of introducing more security vulnerabilities. Prior work has studied how LLMs could be maliciously fine-tuned to suggest

发现论文，激发创造

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从Web中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型(LLMs)进行Prompt Injection攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

通过全球规模的提示破解竞赛揭示LLM系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

大型语言模型（LLM）安全与隐私调查：优点、缺点和不好的一面

这篇论文探讨了大型语言模型与安全和隐私的交叉领域，研究了它们对安全和隐私的积极影响、潜在的风险和威胁，以及模型本身的固有漏洞。通过全面的文献综述，将研究结果分为“有益”的应用、恶意应用和漏洞及其防御措施。论文还指出了需要进一步研究的领域，并希望通过该研究揭示大型语言模型在加强和危及网络安全方面的潜力。

Dec, 2023

对大型语言模型间接提示注入攻击的基准测试与防御

通过使用第一个基准BIPIA来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击，导致ASR更高。在此基础上，我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法，使大型语言模型能够区分指令和外部内容，并忽略外部内容中的指令。实验结果表明，我们的黑盒防御方法可以有效降低ASR，但无法完全阻止间接提示注入攻击，而我们的白盒防御方法可以将ASR几乎降低到零，对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。

Dec, 2023

软提示威胁：通过嵌入空间在开源LLMs中攻击安全对齐和遗忘

该研究探讨了开源LLM模型中潜在的敌对攻击方法，发现利用嵌入空间进行攻击可以更高效地触发危险行为，并提出了一种新的威胁模型，展示了嵌入空间攻击从正在学习和删除的LLM模型中提取已删除信息的能力。

Feb, 2024

CyberSecEval 2: 大型语言模型的广泛网络安全评估套件

大型语言模型引入新的安全风险，但缺乏综合评估套件来衡量和减少这些风险。我们提出了BenchmarkName，这是一个用于量化LLM安全风险和能力的新型基准。我们介绍了两个新领域的测试：提示注入和代码解释器滥用。我们评估了多种最先进的LLMs，包括GPT-4、Mistral、Meta Llama 3 70B-Instruct和Code Llama。我们的结果表明，消除攻击风险的条件仍然是一个尚未解决的问题；例如，所有测试模型在成功的提示注入测试中显示出26%到41%之间的结果。我们进一步引入了安全效用权衡：将LLM条件化以拒绝不安全的提示可能导致LLM错误地拒绝回答良性提示，从而降低效用。我们建议使用False Refusal Rate（FRR）来量化这种权衡。作为示例，我们引入了一个新的测试集来量化网络攻击有用性风险的FRR。我们发现，许多LLMs能够与“边界线”良性请求成功地相符，同时拒绝大部分不安全的请求。最后，我们量化了LLMs在自动化核心网络安全任务（例如利用软件漏洞）方面的效用。这很重要，因为LLMs的进攻能力引起了极大的兴趣；我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型，但LLMs在利用生成方面还需要进一步的工作。我们的代码是开源的，可以用于评估其他LLMs。

Apr, 2024

利用LLM量化

利用量化技术减少大型语言模型（LLM）的内存使用，但本文首次从安全角度研究了量化技术的负面影响，揭示了广泛使用的量化方法可能被利用以产生有害的量化LLM，从而欺骗用户部署恶意量化模型。

May, 2024

大型语言模型中的漏洞和保护探索: 调查

大型语言模型是各种人工智能应用中的关键组件，理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了LLMs的安全挑战，重点关注两个主要领域：Prompt Hacking和Adversarial Attacks，每个领域都有特定类型的威胁。通过对Prompt Hacking和Adversarial Attacks的分析，研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战，并讨论了保护LLMs免受这些威胁的强大防御框架。通过详细阐述这些安全问题，调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。

Jun, 2024

TAPI: 针对代码LLMs的目标特定和对抗性提示注入

此研究提出了一种新的攻击范式，即面向目标和对抗性提示注入（TAPI），针对代码导向的大型语言模型（Code LLMs）。TAPI在外部源代码中生成包含恶意指令信息的不可读注释，并将其隐藏为触发器。当用户利用Code LLMs完成包含触发器的代码时，模型将在特定位置生成攻击者指定的恶意代码片段。实验结果表明，我们的方法具有很高的威胁性（攻击成功率高达89.3％）和隐秘性（设计触发器时平均保存53.1％的令牌）。尤其是，我们成功攻击了一些著名的已部署代码完成集成应用程序，包括CodeGeex和Github Copilot。这进一步证实了我们攻击的现实威胁。

Jul, 2024

PROMPTFUZZ：利用模糊测试技术提升大型语言模型对提示注入攻击的稳健性测试

本研究针对大型语言模型（LLMs）在提示注入攻击下的安全性和可靠性问题，提出了一种名为PROMPTFUZZ的新型测试框架。通过模糊测试技术，PROMPTFUZZ能够系统性地评估LLMs的稳健性，并有效发现模型中的漏洞，从而为这些模型的实际应用提供了有效的安全保障。

Sep, 2024