Dec, 2021

神经语言模型中的反事实记忆

TL;DR本文提出了一种源于心理学中人类记忆分类的对抗性记忆学习方法,进行神经语言模型的训练数据筛选,以减少其对训练数据中的敏感信息的记忆,并探究其训练样本中的对抗性记忆,从而提供一种可用于测试数据及其生成的文本来源推定的直接证据。