大型语言模型的知识编辑:综述
大型语言模型 (Large Language Models) 在理解和生成与人类交流非常相似的文本方面表现出非凡的能力。然而,由于其广泛的参数化,训练过程中存在重大的计算需求限制。这种挑战由于世界的动态性而进一步加剧,需要经常更新 LLM 以纠正过时的信息或整合新知识,从而确保它们持续具有相关性。近年来,对于即时修改模型的高效轻量级方法引起了越来越多的关注。本文首先定义了知识编辑问题,然后提供了对最前沿方法的全面回顾。在教育和认知研究理论的启发下,我们提出了一个统一的分类准则,将知识编辑方法分为三类:利用外部知识、将知识合并到模型中以及编辑内在知识。此外,我们引入了一个新的基准 KnowEdit,以对代表性的知识编辑方法进行综合实证评估。此外,我们对知识定位进行了深入分析,从而更深入地了解 LLM 固有的知识结构。最后,我们讨论了知识编辑的几个潜在应用,并概述了它的广泛而有影响力的意义。
Jan, 2024
本文利用分类法阐述了如何将外部知识融入预训练语言模型(PLMs)中解决其因缺乏外部知识而导致的推理能力不足问题,以及 KE-PLMs 在 NLU 和 NLG 任务中的应用和未来发展方向。
Nov, 2022
本文论述了预训练语言模型(PLM)的重要性以及知识增强型预训练语言模型(KE-PLMs)的研究现状,探讨了 KE-PLMs 在各种 NLU 和 NLG 应用中的超越性能以及 KE-PLMs 面临的挑战和未来研究方向。
Oct, 2021
人类对世界的理解与我们的感知和认知密切相关,其中人类语言作为世界知识的重要承载者之一。本文通过 “知识” 这个视角来探索大型模型,并讨论符号知识如何增强大型语言模型以及大型语言模型如何扩展传统符号知识基础。考虑到人类知识的复杂性,我们倡导创建专门管理多样化知识结构的大型知识模型,并提出了五个 “A” 原则来区分 LKM 的概念。
Dec, 2023
通过研究发现,Parameter-Efficient Fine-Tuning (PEFT) 技术相较于定位和编辑方法,在时效性知识编辑方面表现更优,从而为大型语言模型的更新提供了一种替代方案。
Jun, 2024
本文提出了信息理论量化大型语言模型中现实知识的方法,评估了其与现有排名法的精度,并探究了两种前沿知识安装方法在特定情况下的限制,最后通过应用在上下文学习中,证明了该方法可以用来提取 LLM 中未学习和错学的事实。
Jun, 2023
该论文探索了在大型语言模型中编辑概念性知识的能力,通过构建一个新的基准数据集 ConceptEdit 和建立一套新的度量标准来评估现有的编辑方法。实验结果表明,虽然现有的编辑方法在某种程度上能有效地修改概念级别的定义,但也有可能扭曲大型语言模型中相关的实例化知识,导致性能下降。这对于更好地理解大型语言模型的能力具有启发意义。
Mar, 2024
评估大型语言模型的知识编辑能力和知识迁移效果的新基准 Eva-KELLM,采用原始文档进行知识编辑,从多个角度评估其效果,研究发现当前使用原始文档进行知识编辑的方法在处理修改后的知识以及跨语言知识迁移时效果不佳。
Aug, 2023