Feb, 2024

大规模语言模型的提示窃取攻击

TL;DR我们提出了一种名为 prompt stealing attacks 的新攻击,该攻击旨在基于生成的答案窃取设计良好的 prompt,通过参数提取器和提示重构器实现,实验结果表明攻击的卓越性能,进一步引发关于大型语言模型安全问题的关注。