Feb, 2024
通过伪标记成员的微调增强训练数据曝光
Amplifying Training Data Exposure through Fine-Tuning with Pseudo-Labeled Memberships
Myung Gyo Oh, Hong Eun Ahn, Leo Hyun Park, Taekyoung Kwon
TL;DR通过对神经语言模型进行对抗性微调,以增强其对预训练数据的保留,本文介绍了一种新的攻击场景。通过使用伪标签进行生成文本的成员近似,我们证明了使用更高的成员概率进行微调能够使模型暴露训练数据增加四到八倍。