WISE: 对大规模语言模型的终身模型编辑的知识记忆的重新思考
知识编辑致力于在大型语言模型(LLMs)中纠正过时或错误的知识,无需昂贵的重新训练。然而,当前的知识编辑方法主要集中在单一编辑上,无法满足终身编辑的要求。本文揭示了终身编辑中知识编辑遇到的性能退化问题,其特征是毒性堆积和毒性闪现,主要原因是模式不匹配。我们引入了一种名为 WilKE 的知识编辑方法,它根据跨不同层的编辑知识的模式匹配度来选择编辑层。实验结果表明,在终身编辑中,WilKE 相对于最先进的知识编辑方法,在编辑 GPT2-XL 和 GPT-J 上平均改进了 46.2%和 67.8%。
Feb, 2024
大型语言模型 (Large Language Models) 在理解和生成与人类交流非常相似的文本方面表现出非凡的能力。然而,由于其广泛的参数化,训练过程中存在重大的计算需求限制。这种挑战由于世界的动态性而进一步加剧,需要经常更新 LLM 以纠正过时的信息或整合新知识,从而确保它们持续具有相关性。近年来,对于即时修改模型的高效轻量级方法引起了越来越多的关注。本文首先定义了知识编辑问题,然后提供了对最前沿方法的全面回顾。在教育和认知研究理论的启发下,我们提出了一个统一的分类准则,将知识编辑方法分为三类:利用外部知识、将知识合并到模型中以及编辑内在知识。此外,我们引入了一个新的基准 KnowEdit,以对代表性的知识编辑方法进行综合实证评估。此外,我们对知识定位进行了深入分析,从而更深入地了解 LLM 固有的知识结构。最后,我们讨论了知识编辑的几个潜在应用,并概述了它的广泛而有影响力的意义。
Jan, 2024
利用 EREN(通过阅读笔记编辑模型)提出方法来提高大型语言模型的可伸缩性和鲁棒性,通过正确响应语法相似但语义无关的输入以及从多个修改中整合知识,优于现有技术。
Mar, 2024
提出了一种新的 RET-LLM 框架,它为 LLMs 提供了一个通用的写 - 读内存单元,使它们能够从文本中提取、存储和检索知识,以便进行任务执行。通过 Davidsonian 语义理论,以三元组的形式提取和保存知识,在问答任务中展现出比基线方法更卓越的性能。此外,该框架在处理基于时间的问题回答任务时表现出了强大的性能,展示了它有效处理时态信息的能力。
May, 2023
知识编辑是一种有效更新大型语言模型中的实际知识而最小化参数改动的新兴技术。然而,近期研究发现一些令人担忧的副作用,如知识扭曲和综合能力下降,这在编辑后产生了。本调查综合研究了这些副作用,提供了一个统一的观点,对于 LLMs 中的知识编辑所面临的挑战进行了讨论。我们讨论了相关工作,并总结了克服这些限制的潜在研究方向。我们的工作强调了当前知识编辑方法的限制,强调了对 LLMs 内部知识结构的更深入理解和改进的知识编辑方法的需求。为促进未来研究,我们已公开发布了补充材料,如论文集,网址为 https URL。
Jun, 2024
LLMs require continual knowledge updates, and this paper introduces LEMoE, an advanced MoE adaptor for lifelong model editing, addressing issues like catastrophic forgetting and inconsistent routing, with experimental results demonstrating its effectiveness.
Jun, 2024