知识回归导向提示 (KROP)

Jun, 2024

Knowledge Return Oriented Prompting (KROP)

Jason Martin, Kenneth Yeung

TL;DR引入了 KROP，一种能够混淆提示注入攻击并使其对大多数安全措施几乎不可检测的注入技术。

Abstract

Many large language models (LLMs) and LLM-powered apps deployed today use some form of prompt filter or alignment to protect their integri

large language models prompt filter alignment krop prompt injection attacks

发现论文，激发创造

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

针对越狱攻击的强化预设优化

通过使用梯度优化的方法，我们提出了一种防御语言模型遭受恶意输入攻击的算法，Robust Prompt Optimization (RPO)，有效地降低了对抗性攻击的成功率，并在黑盒模型中表现出了良好的转移能力。

Jan, 2024

提示作为探究：利用语言模型进行知识库构建

本文提出了一种名为 ProP 的方法，它利用 GPT-3 这个大型语言模型进行知识库构建任务，结合多种提示技巧，结果表明手动提示的重要性、变长回答集的有效用处以及实体别名字典的效用等，从而获得了较高的预测质量。

Aug, 2022

大型语言模型作为优化器

在此工作中，我们提出了一种名为 OPRO 的优化方法，利用大型语言模型作为优化器，通过自然语言描述优化任务。我们首先展示了 OPRO 在线性回归和旅行商问题上的应用，然后转向优化提示，目标是找到最大化任务准确性的指令。我们通过多种大型语言模型的实验证明，OPRO 通过优化提示的方式胜过人工设计的提示，在 GSM8K 上提高了最多 8％，在 Big-Bench Hard 任务上提高了最多 50％。

Sep, 2023

知识提示：通过柔性提示将世界知识注入语言模型

本文提出使用软提示的方法将世界知识应用到大型自然语言模型中，通过自监督学习在知识库数据上训练软提示，得到的软知识提示可以被用于提高语言模型在不同知识密集型任务中的性能。

Oct, 2022

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

Signed-Prompt: 防止 LLM 集成应用程序中的 Prompt 注入攻击的新方法

大语言模型中快速注入攻击的关键挑战以及引起人工智能领域日益关注。传统的防御策略不够有效，本文提出了一种新颖的解决方案 ——“签名提示”。该方法通过将敏感指令签名并由授权用户使用，使得语言模型可以辨别可信指令来源。本文详细介绍了快速注入攻击模式的分析，并通过提示工程和语言模型的微调来实现 “签名提示” 概念的基本框架和实现。实验证明了 “签名提示” 方法的有效性，对各种类型的快速注入攻击具有相当的抵抗能力，从而验证了其作为一种强大的人工智能安全防御策略的潜力。

Jan, 2024

PLeak：大规模语言模型应用中的提示泄露攻击

设计了一种新颖的闭盒信息泄露攻击框架 PLeak，用于优化对抗查询，以便当攻击者将其发送到目标 LLM 应用程序时，其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询，有效地泄露系统提示，并显著优于手动策划查询和修改自现有越狱攻击的优化查询。

May, 2024

PROPANE：逆问题中的即时设计

本研究提出了一个自动化提示优化框架 PROPANE，旨在找到一个提示，能够在没有用户干预的情况下诱导出与给定示例语义相似的输出。进一步证明 PROPANE 可以用于改进现有提示，并发现在模型之间传输的语义混淆提示。

Nov, 2023