知识回归导向提示 (KROP)
通过使用梯度优化的方法,我们提出了一种防御语言模型遭受恶意输入攻击的算法,Robust Prompt Optimization (RPO),有效地降低了对抗性攻击的成功率,并在黑盒模型中表现出了良好的转移能力。
Jan, 2024
本文提出了一种名为 ProP 的方法,它利用 GPT-3 这个大型语言模型进行知识库构建任务,结合多种提示技巧,结果表明手动提示的重要性、变长回答集的有效用处以及实体别名字典的效用等,从而获得了较高的预测质量。
Aug, 2022
在此工作中,我们提出了一种名为 OPRO 的优化方法,利用大型语言模型作为优化器,通过自然语言描述优化任务。我们首先展示了 OPRO 在线性回归和旅行商问题上的应用,然后转向优化提示,目标是找到最大化任务准确性的指令。我们通过多种大型语言模型的实验证明,OPRO 通过优化提示的方式胜过人工设计的提示,在 GSM8K 上提高了最多 8%,在 Big-Bench Hard 任务上提高了最多 50%。
Sep, 2023
本文提出使用软提示的方法将世界知识应用到大型自然语言模型中,通过自监督学习在知识库数据上训练软提示,得到的软知识提示可以被用于提高语言模型在不同知识密集型任务中的性能。
Oct, 2022
本研究讨论了如何通过注入恶意提示,以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。
Feb, 2023
使用 PromptInject 对 GPT-3 进行了安全性评估,发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性,导致潜在的风险
Nov, 2022
大语言模型中快速注入攻击的关键挑战以及引起人工智能领域日益关注。传统的防御策略不够有效,本文提出了一种新颖的解决方案 ——“签名提示”。该方法通过将敏感指令签名并由授权用户使用,使得语言模型可以辨别可信指令来源。本文详细介绍了快速注入攻击模式的分析,并通过提示工程和语言模型的微调来实现 “签名提示” 概念的基本框架和实现。实验证明了 “签名提示” 方法的有效性,对各种类型的快速注入攻击具有相当的抵抗能力,从而验证了其作为一种强大的人工智能安全防御策略的潜力。
Jan, 2024
设计了一种新颖的闭盒信息泄露攻击框架 PLeak,用于优化对抗查询,以便当攻击者将其发送到目标 LLM 应用程序时,其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询,有效地泄露系统提示,并显著优于手动策划查询和修改自现有越狱攻击的优化查询。
May, 2024
本研究提出了一个自动化提示优化框架 PROPANE,旨在找到一个提示,能够在没有用户干预的情况下诱导出与给定示例语义相似的输出。进一步证明 PROPANE 可以用于改进现有提示,并发现在模型之间传输的语义混淆提示。
Nov, 2023