Jul, 2024

朝着更现实的提取攻击:一种对抗性视角

TL;DR利用对语言模型的脆弱性,我们从对抗性的角度重新审视了提取攻击,发现即使对提示进行微小、不符合直觉的更改,或者针对较小的模型和旧的检查点,也可以将提取风险增加2-4倍。此外,仅依赖广泛接受的逐字匹配低估了提取信息的真实范围,我们提供了其他准确捕捉提取风险的方法。我们总结了数据去重,这是一种常见的缓解策略,并发现它虽然解决了一些记忆问题,但仍对真实的对手提取风险的升级具有脆弱性。我们的发现凸显了认识对手的真实能力以避免低估提取风险的必要性。