Feb, 2024

评估 LLMs 中强化遗忘的八种方法

TL;DR通过综合测试现有评估方法,我们对 Eldan and Russinovich(2023)的 “Who's Harry Potter” 模型进行了严格评估,发现它在 “熟悉度” 度量下表现良好,可靠地提取大量超越基准的知识,并与原始模型在 Harry Potter 问答任务和潜在知识表示等方面具有可比性,同时存在相关领域的副作用遗忘,结果强调了全面的遗忘评估的重要性,避免使用临时指标。