EMNLPOct, 2023

DEPN: 检测和编辑预训练语言模型中的隐私神经元

TL;DR为了有效降低预训练语言模型中的数据泄漏风险,我们提出了一个名为 DEPN 的框架来检测和编辑预训练语言模型中的隐私神经元,部分受到知识神经元和模型编辑的启发。在 DEPN 中,我们引入了一种称为隐私神经元探测器的新方法,来定位与私人信息相关的神经元,并通过将它们的激活设置为零来编辑这些检测到的隐私神经元。此外,我们还提出了一种批处理方式的隐私神经元聚合器来去除隐私信息。实验结果表明,我们的方法能够显著并有效地降低私人数据泄漏的风险,而不会损害模型的性能。此外,我们从多个角度(包括模型大小、训练时间、提示、隐私神经元分布)经验性地展示了模型记忆和隐私神经元之间的关系,从而证明了我们方法的稳健性。