大型语言模型中序列记忆编辑的全面评估

Feb, 2024

大型语言模型中序列记忆编辑的全面评估

Navigating the Dual Facets: A Comprehensive Evaluation of Sequential Memory Editing in Large Language Models

Zihao Lin, Mohammad Beigi, Hongxuan Li, Yufan Zhou, Yuxiang Zhang...

TL;DR修改存储在大型语言模型中的错误事实或注入新事实的记忆编辑（ME）方法已被证明是有效的。然而，先前的研究在 ME 评估方面存在两个关键限制：仅评估单个编辑的 LLMs，忽视了连续编辑的需求，以及仅关注基本事实三元组的评估，忽略了更广泛的 LLM 能力如逻辑推理和阅读理解。这项研究通过三个方面解决了这些限制，并发现参数修改型 ME 在几个连续编辑后会显著降低性能，而参数保持型 ME 则能有效地保持 LLMs 的基本能力，但在以不同格式呈现的已编辑知识的准确记忆方面存在困难。此外，该研究还提出了几种可能缓解 ME 不利影响的策略，并从参数修改、语言建模能力和上下文学习能力三个维度进一步解释了为何参数修改型 ME 会损害 LLMs。这项深入研究倡导在实际应用中更谨慎地使用 ME。

Abstract

memory editing (ME) has emerged as an efficient method to modify erroneous facts or inject new facts into large language models (LLMs). Two mainstream ME methods exist: →

memory editing large language models parameter-modifying me parameter-preserving me editing settings

发现论文，激发创造

多语言语言模型中的跨语言编辑

在多语言的大型语言模型中，已有的模型编辑技术在跨语言的模型编辑范式下存在一定的性能限制，尤其是当涉及到不同语言脚本家族的语言时，需要进一步研究和发展跨语言模型编辑技术以应对这些挑战。

Jan, 2024

大型语言模型的知识编辑综合研究

大型语言模型 (Large Language Models) 在理解和生成与人类交流非常相似的文本方面表现出非凡的能力。然而，由于其广泛的参数化，训练过程中存在重大的计算需求限制。这种挑战由于世界的动态性而进一步加剧，需要经常更新 LLM 以纠正过时的信息或整合新知识，从而确保它们持续具有相关性。近年来，对于即时修改模型的高效轻量级方法引起了越来越多的关注。本文首先定义了知识编辑问题，然后提供了对最前沿方法的全面回顾。在教育和认知研究理论的启发下，我们提出了一个统一的分类准则，将知识编辑方法分为三类：利用外部知识、将知识合并到模型中以及编辑内在知识。此外，我们引入了一个新的基准 KnowEdit，以对代表性的知识编辑方法进行综合实证评估。此外，我们对知识定位进行了深入分析，从而更深入地了解 LLM 固有的知识结构。最后，我们讨论了知识编辑的几个潜在应用，并概述了它的广泛而有影响力的意义。

Jan, 2024

Eva-KELLM: 一个用于评估 LLMs 的知识编辑的新基准

评估大型语言模型的知识编辑能力和知识迁移效果的新基准 Eva-KELLM，采用原始文档进行知识编辑，从多个角度评估其效果，研究发现当前使用原始文档进行知识编辑的方法在处理修改后的知识以及跨语言知识迁移时效果不佳。

Aug, 2023

模型编辑的长篇评估

模型编辑评估中长文本生成的有效性及影响的新型评估方法（LEME）揭示了模型编辑方法的新维度，其中一些方法在有限范围内具有良好的一致性，但更容易出现事实偏移问题。

Feb, 2024

通过高效微调进行时间敏感知识编辑

通过研究发现，Parameter-Efficient Fine-Tuning (PEFT) 技术相较于定位和编辑方法，在时效性知识编辑方面表现更优，从而为大型语言模型的更新提供了一种替代方案。

Jun, 2024

模型编辑可能损害大型语言模型的普适能力

通过对两个大型语言模型在八个代表性任务类别上评估四种常用的编辑方法进行广泛实证研究后，我们发现模型的编辑能够提高模型的事实性，但会显著损害模型的通用能力，因此我们呼吁更多的研究努力来最小化在大语言模型预训练期间获得的通用能力的损失，并在模型编辑过程中最终保留它们。

Jan, 2024

医学大型语言模型的事实知识和解释能力编辑

提出了两项模型编辑研究并在医学领域进行了验证，同时观察到当前模型编辑方法在医学知识的专业化和复杂性方面存在困难。因此，提出了一种用于医学模型编辑的新型分层可扩展适配器策略 MedLaSA。通过因果追踪来确定神经元中知识的准确位置，并在 LLMs 的密集层引入可扩展适配器，这些适配器基于相应的特定知识分配缩放值。在医疗 LLMs 上进行的大量实验证明了 MedLaSA 的编辑效率，且不影响未编辑的无关知识。

Feb, 2024

大型语言模型的知识编辑：综述

介绍了大型语言模型（LLMs）的计算成本问题以及知识模型编辑（KME）领域中的最新进展和分类技术，探讨了方法的洞见、优势、限制以及实际应用和挑战，并提出了未来研究方向。

Oct, 2023

LEMoE：面向大型语言模型的先进的专家混合适配器，用于终身模型编辑

LLMs require continual knowledge updates, and this paper introduces LEMoE, an advanced MoE adaptor for lifelong model editing, addressing issues like catastrophic forgetting and inconsistent routing, with experimental results demonstrating its effectiveness.

Jun, 2024

规模化的模型编辑导致渐进性和灾难性遗忘

大型语言模型的编辑知识是一种有吸引力能力，允许我们在预训练期间纠正学习不正确的事实，并在模型中更新日益增长的新事实清单。然而，现有的模型编辑技术通常使用可靠性、特异性和对一项或少数几个编辑的泛化性指标进行评估。我们认为，为了使模型编辑具有实际效用，我们必须能够对同一模型进行多次编辑。针对当前的两种最先进的方法 ——ROME 和 MEMIT，我们在大规模上评估模型编辑方法。我们发现，随着模型被连续地编辑多个事实，它会不断遗忘先前编辑的事实以及执行下游任务的能力。这种遗忘分为两个阶段 —— 一个初始的逐渐但渐进性的遗忘阶段，后面是突然或灾难性的遗忘阶段。逐渐和灾难性的遗忘都限制了大规模上模型编辑方法的有效性和可扩展性。我们的分析还强调了 ROME 和 MEMIT 在大规模上的其他关键局限性。通过我们的工作，我们推动以可扩展性为中心的模型编辑方法的开发和评估。

Jan, 2024