评估语言模型中的事实编辑依赖关系：特殊性和隐含意识

EMNLPDec, 2023

评估语言模型中的事实编辑依赖关系：特殊性和隐含意识

Evaluating Dependencies in Fact Editing for Language Models: Specificity and Implication Awareness

Zichao Li, Ines Arous, Siva Reddy, Jackie C.K. Cheung

TL;DR使用大型语言模型作为知识库的潜力引起了广泛关注。为了管理 LLMs 所获取的知识，我们需要确保学到的事实的编辑尊重内部逻辑约束，即被称为知识依赖性。然而，现有的 LLMs 编辑工作在处理一个事实与其逻辑蕴含之间的依赖关系时存在局限性。我们提出了一个评估协议和一个问答数据集 DepEdit，它提供了一个全面的评估编辑过程的依赖关系。我们的协议通过建立一个受控环境，在该环境中编辑事实并监测其对 LLMs 的影响以及基于 If-Then 规则的相关逻辑蕴含。对 DepEdit 的广泛实验表明，现有的知识编辑方法对知识的表面形式敏感，并且在推断编辑事实的逻辑蕴含方面表现受限。

Abstract

The potential of using a large language model (LLM) as a knowledge base (KB) has sparked significant interest. To manage the knowledge acquired by LLMs, we need to ensure that the editing of learned facts respect

large language model knowledge base dependency of knowledge editing process implications

发现论文，激发创造

编辑语言模型中的事实知识

本文介绍 KnowledgeEditor 一种方法，用于编辑语言模型中的知识，以修复 “错误” 或意外预测，且不需要重新训练或以元学习为前提条件。作者使用受约束的优化来训练一个超网络，该超网络可预测权重更新。作者展示了 KnowledgeEditor 的有效性，其支持两种流行的体系结构和知识密集型任务：一种是针对事实核对进行细微调整的 BERT 模型，另一种是适用于问答的序列到序列 BART 模型。

Apr, 2021

大型语言模型的概念知识编辑

该论文探索了在大型语言模型中编辑概念性知识的能力，通过构建一个新的基准数据集 ConceptEdit 和建立一套新的度量标准来评估现有的编辑方法。实验结果表明，虽然现有的编辑方法在某种程度上能有效地修改概念级别的定义，但也有可能扭曲大型语言模型中相关的实例化知识，导致性能下降。这对于更好地理解大型语言模型的能力具有启发意义。

Mar, 2024

评估语言模型中知识编辑的连锁反应

通过提出一套新的评估标准，我们构建了一个诊断基准集合，其中包含了 5K 个不同类型的知识扩展，我们在该基准上对知名的编辑方法进行了评估，结果表明现有的方法在模型知识的一致性变化方面存在问题，同时我们发现通过简单的上下文编辑方法可以在我们的基准测试中得到最佳分数，为模型编辑的一个有前景的研究方向提供了启示。

Jul, 2023

大型语言模型的知识编辑综合研究

大型语言模型 (Large Language Models) 在理解和生成与人类交流非常相似的文本方面表现出非凡的能力。然而，由于其广泛的参数化，训练过程中存在重大的计算需求限制。这种挑战由于世界的动态性而进一步加剧，需要经常更新 LLM 以纠正过时的信息或整合新知识，从而确保它们持续具有相关性。近年来，对于即时修改模型的高效轻量级方法引起了越来越多的关注。本文首先定义了知识编辑问题，然后提供了对最前沿方法的全面回顾。在教育和认知研究理论的启发下，我们提出了一个统一的分类准则，将知识编辑方法分为三类：利用外部知识、将知识合并到模型中以及编辑内在知识。此外，我们引入了一个新的基准 KnowEdit，以对代表性的知识编辑方法进行综合实证评估。此外，我们对知识定位进行了深入分析，从而更深入地了解 LLM 固有的知识结构。最后，我们讨论了知识编辑的几个潜在应用，并概述了它的广泛而有影响力的意义。

Jan, 2024

大型语言模型知识编辑的陷阱揭示

本文旨在探索对大型语言模型进行知识编辑可能带来的潜在问题，并提出了基准数据集和创新评估指标来研究这些问题。实验结果显示，知识编辑可能意外产生对大型语言模型的意想不到的后果，因此需要引起关注并进行进一步研究。

Oct, 2023

大型语言模型编辑错误检测：一个改进的细节基准

该研究扩展了现有的 CounterFact 基准来包含动态因素，并通过基于 KL 散度的度量衡量特异性，发现了模型编辑技术可能导致的大规模不良副作用，表明需要改进的特异性基准来识别和预防不良副作用。

May, 2023

知识编辑方法如何有效编辑让人困惑的知识？

大语言模型知识编辑的挑战在于不同类型的知识以及层次关系对编辑效果的影响。本研究通过量化知识的困惑度并评估编辑方法的效果，发现新知识的困惑度与编辑效果存在负相关。进一步研究发现，抽象概念更困惑，而层次关系对编辑结果有影响。研究提供了更深入的大语言模型编辑挑战以及未来模型编辑的启示。

Jun, 2024

医学大型语言模型的事实知识和解释能力编辑

提出了两项模型编辑研究并在医学领域进行了验证，同时观察到当前模型编辑方法在医学知识的专业化和复杂性方面存在困难。因此，提出了一种用于医学模型编辑的新型分层可扩展适配器策略 MedLaSA。通过因果追踪来确定神经元中知识的准确位置，并在 LLMs 的密集层引入可扩展适配器，这些适配器基于相应的特定知识分配缩放值。在医疗 LLMs 上进行的大量实验证明了 MedLaSA 的编辑效率，且不影响未编辑的无关知识。

Feb, 2024

Eva-KELLM: 一个用于评估 LLMs 的知识编辑的新基准

评估大型语言模型的知识编辑能力和知识迁移效果的新基准 Eva-KELLM，采用原始文档进行知识编辑，从多个角度评估其效果，研究发现当前使用原始文档进行知识编辑的方法在处理修改后的知识以及跨语言知识迁移时效果不佳。

Aug, 2023

模型编辑可能损害大型语言模型的普适能力

通过对两个大型语言模型在八个代表性任务类别上评估四种常用的编辑方法进行广泛实证研究后，我们发现模型的编辑能够提高模型的事实性，但会显著损害模型的通用能力，因此我们呼吁更多的研究努力来最小化在大语言模型预训练期间获得的通用能力的损失，并在模型编辑过程中最终保留它们。

Jan, 2024