Oct, 2023

大型语言模型遗忘

TL;DR我们研究了如何在大型语言模型中执行遗忘,即忘记不受欢迎的行为,并展示了三种情况下进行语言模型与人类偏好的对齐可以从学习中受益:(1)删除有害回应,(2)根据要求删除受版权保护的内容,以及(3)消除幻觉。我们的工作是探索语言模型遗忘中首个实现,并在设置、目标和评估方面都是先驱。我们还表明,如果从业者只有有限的资源,优先级是停止生成不受欢迎的输出而不是生成理想的输出,那么遗忘尤其吸引人。尽管我们只具有负样本,但我们的消融研究显示,遗忘仍可以在仅使用 2%的计算时间时实现更好的对齐性能比 RLHF。