Jul, 2023

提示信息不应视为机密信息:系统性地测量提示信息提取攻击的成功率

TL;DR本文介绍了一种用于测量和攻击大型语言模型中Prompt的框架,通过实验展示了文本攻击可以高概率地成功提取prompt。