Apr, 2024

负面偏好优化:从灾难性崩溃到有效的遗忘

TL;DR大型语言模型(LLMs)在预训练过程中经常记忆敏感、私人或受版权保护的数据。LLM unlearning 旨在消除预训练模型中不需要的数据的影响,同时保留模型在其他任务上的效用。本文提出了一种简单的基于对齐的方法 ——Negative Preference Optimization(NPO),可以高效有效地 unlearn 目标数据集。通过在合成数据和基准 TOFU 数据集上的实验证明,基于 NPO 的方法在 unlearn 不需要的数据和保持模型效用之间取得了更好的平衡。我们还观察到,与输出通常为无意义的 GA-based 方法相比,基于 NPO 的方法生成更有意义的输出。值得注意的是,在 TOFU 上,基于 NPO 的方法在忘记 50%(或更多)训练数据方面取得了合理的 unlearning 结果,而现有的方法已经在忘记 10% 的训练数据方面存在困难。