Feb, 2024

通过伪标记成员的微调增强训练数据曝光

TL;DR通过对神经语言模型进行对抗性微调,以增强其对预训练数据的保留,本文介绍了一种新的攻击场景。通过使用伪标签进行生成文本的成员近似,我们证明了使用更高的成员概率进行微调能够使模型暴露训练数据增加四到八倍。