Jul, 2023

评估语言模型中知识编辑的连锁反应

TL;DR通过提出一套新的评估标准,我们构建了一个诊断基准集合,其中包含了 5K 个不同类型的知识扩展,我们在该基准上对知名的编辑方法进行了评估,结果表明现有的方法在模型知识的一致性变化方面存在问题,同时我们发现通过简单的上下文编辑方法可以在我们的基准测试中得到最佳分数,为模型编辑的一个有前景的研究方向提供了启示。