基于优化的提示注入攻击 LLM-as-a-Judge

Mar, 2024

基于优化的提示注入攻击 LLM-as-a-Judge

Optimization-based Prompt Injection Attack to LLM-as-a-Judge

Jiawen Shi, Zenghui Yuan, Yinuo Liu, Yue Huang, Pan Zhou...

TL;DRLLM-as-a-Judge 与大型语言模型相关的文本信息，存在着优于传统人工评估的表现，并且对于注入攻击的鲁棒性依然具有开放性问题。本研究引入一种名为 JudgeDeceiver 的基于优化的注入攻击方法，精确地针对 LLM-as-a-Judge 的决策过程进行攻击，利用优化算法自动化生成对抗序列，实现有针对性和有效的模型评估操纵，相较于手工注入攻击，本方法表现出优越的效果，对 LLM 基于判断系统的当前安全方法构成重大挑战。通过广泛实验，展示了 JudgeDeceiver 在不同案例中改变决策结果的能力，强调了 LLM-as-a-Judge 系统对基于优化的注入攻击的脆弱性。

Abstract

llm-as-a-judge is a novel solution that can assess textual information with large language models (LLMs). Based on existing research studi

llm-as-a-judge textual information large language models prompt injection attacks judgedeceiver

发现论文，激发创造

LLM 集成应用中的提示注入攻击与防御

大型语言模型在 LLM 集成应用中存在提示注入攻击的安全漏洞，现有研究有限且缺乏系统性，本文提出了一般性的框架来理解和设计这种攻击，同时也提出了对应的防御框架，并基于 10 个 LLM 和 7 个任务进行了系统评估。

Oct, 2023

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

LLM 集成应用的提示注入攻击

本研究检验了大型语言模型中已存在的 Prompt Injection 攻击，设计了一种名为 HouYi 的黑盒 Prompt Injection 攻击技术，并发现其可造成诸如不受限制的任意 LLM 使用和简单的应用程序 prompt 窃取等严重影响。

Jun, 2023

通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

LLM 作为法官是否稳健？对零样本 LLM 评估进行普适对抗攻击研究

LLM 评估器的脆弱性以及连接攻击的影响对于高风险实际场景的部署提出了重要的关注和需求。

Feb, 2024

DeceptPrompt: 利用对抗性自然语言指令挖掘 LLM 驱动的代码生成

通过引入 DeceptPrompt 算法，该论文针对大型语言模型在代码生成任务中的致命弱点进行了广泛实验和分析，证实了其在诱导模型生成易受攻击代码方面的有效性，攻击成功率相比无前缀 / 后缀应用平均提高了 50%。

Dec, 2023

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

对大型语言模型间接提示注入攻击的基准测试与防御

通过使用第一个基准 BIPIA 来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击，导致 ASR 更高。在此基础上，我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法，使大型语言模型能够区分指令和外部内容，并忽略外部内容中的指令。实验结果表明，我们的黑盒防御方法可以有效降低 ASR，但无法完全阻止间接提示注入攻击，而我们的白盒防御方法可以将 ASR 几乎降低到零，对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。

Dec, 2023

对抗调整：为 LLMs 防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024