Aug, 2024

有效移除大型语言模型中的知识的UNLEARN方法

TL;DR本文解决了在不重新训练模型的情况下有效移除大型语言模型中特定知识(如私密或专有信息)的难题。提出的UNLEARN方法通过子空间技术,能够实现对知识的精确移除,同时保持其他知识的性能。实验结果显示,该方法能够忘记96%的目标知识,并且性能保持在原模型的2.5%之内,显著优于之前的最先进技术。