Jun, 2024

SNAP: 大型语言模型中选择性知识的去学习与负指令

TL;DR本研究提出 SNAP 框架,通过训练带有负面指令的大型语言模型(LLMs)生成抹除的回复,并应用新颖的 Wasserstein 正则化方法,成功地选择性地遗忘指定的信息,保留原始 LLM 能力。