ACLMay, 2023

通过提示微调控制大型语言模型中已记忆数据的提取

TL;DR本文采用提示调参的方法控制大型语言模型的记忆内容的提取率,通过基于 GPT-Neo 家族模型的公共基准测试,展示了我们的攻击和防御策略的有效性,实现了相对于基线的提取率增加和减少,最多可以相对于基线降低 97.7% 的提取率,附加的困惑度增加了 16.9%。