Jun, 2024

拆分、遗忘、合并:通过数据属性提升 LLM 中的更有效遗忘

TL;DR大型语言模型 (LLMs) 存在社会和伦理风险,如生成有害语言或促进危险知识的恶意使用。本文提出了 “SPlit, UNlearn, MerGE” (SPUNGE) 框架,可与任何去学习方法结合以增强其效果。我们实验证明,SPUNGE 在现代化大型语言模型上显著改进了两种最新的去学习方法的性能,同时保持了其在标准学术基准上的通用能力。