TAXI：评估语言模型的分类知识编辑

Apr, 2024

TAXI：评估语言模型的分类知识编辑

TAXI: Evaluating Categorical Knowledge Editing for Language Models

Derek Powell, Walter Gerych, Thomas Hartvigsen

TL;DR人工编辑语言模型的知识注入对语义的一致性要求较高，现有的基准数据集无法充分评估一致性，本文创建了 TAXI 基准数据集，并使用它评估了流行编辑器的一致性表现，发现编辑器的一致性明显低于人类基准，且在编辑非典型主题时更易实现一致性。

Abstract

Humans rarely learn one fact in isolation. Instead, learning a new fact induces knowledge of other facts about the world. For example, in learning a korat is a type of cat, you also infer it is a mammal and has claws, ensuring your model of the world is consistent. knowledge editing ai

knowledge editing consistency evaluation benchmark dataset multiple-choice queries factuality

发现论文，激发创造

编辑语言模型中的事实知识

本文介绍 KnowledgeEditor 一种方法，用于编辑语言模型中的知识，以修复 “错误” 或意外预测，且不需要重新训练或以元学习为前提条件。作者使用受约束的优化来训练一个超网络，该超网络可预测权重更新。作者展示了 KnowledgeEditor 的有效性，其支持两种流行的体系结构和知识密集型任务：一种是针对事实核对进行细微调整的 BERT 模型，另一种是适用于问答的序列到序列 BART 模型。

Apr, 2021

大型语言模型的概念知识编辑

该论文探索了在大型语言模型中编辑概念性知识的能力，通过构建一个新的基准数据集 ConceptEdit 和建立一套新的度量标准来评估现有的编辑方法。实验结果表明，虽然现有的编辑方法在某种程度上能有效地修改概念级别的定义，但也有可能扭曲大型语言模型中相关的实例化知识，导致性能下降。这对于更好地理解大型语言模型的能力具有启发意义。

Mar, 2024

检测语言模型中的编辑知识

知识编辑技术可以更新语言模型从预训练中学到的过时或不准确的知识，我们通过引入一个新的任务来研究如何检测语言模型中的编辑知识，提出了一个简单的分类器 RepReg，它可以在有限的训练样本下实现接近最优的性能。

May, 2024

基于语言模型的知识图谱嵌入编辑

本研究提出了一种新的任务，即在不影响其余表现的情况下编辑语言模型 KG 基础嵌入，并构建了四个新数据集来评估多个知识编辑基线和一种名为 KGEditor 的新方法，其利用超级网络的其他参数层来编辑和添加事实，实验结果表明 KGEditor 可以在具有低训练资源但需要更新特定事实的情况下表现更好。

Jan, 2023

出租车自然语言理解之路

本文通过提出一个有关自然语言文本蕴含任务中分类的分类法以及构建一个带有该分类法的数据集 TAXINLI，研究预训练模型在不同类型蕴含问题上的表现，并发现了当前模型和数据集的不足之处。

Sep, 2020

使用非结构化事实更新语言模型：实现实用的知识编辑

知识编辑目标是将知识更新注入语言模型中以保持其正确性和最新性。然而，当前的评估策略明显不实用：它们仅以精心策划的结构化事实（包含主语、关系和宾语的三元组）进行更新，而真实世界的知识更新通常出现在无结构的文本中，如新闻文章。本文提出一个新的基准，无结构知识编辑（Unstructured Knowledge Editing，简称 UKE），直接使用无结构的文本作为知识更新进行编辑性能评估，从而避免了繁琐的结构化事实构建，并实现了高效和响应性的知识编辑，成为一个更实用的基准。我们在新构建的数据集上进行了广泛的实验，并证明 UKE 对于最先进的知识编辑方法构成了重大挑战，导致它们的性能显著下降。我们进一步展示，即使将三元组提取为结构化事实，这个挑战仍然存在。我们的分析揭示了激励未来 UKE 研究的关键见解，以实现更实用的知识编辑。

Feb, 2024

大型语言模型的知识编辑综合研究

大型语言模型 (Large Language Models) 在理解和生成与人类交流非常相似的文本方面表现出非凡的能力。然而，由于其广泛的参数化，训练过程中存在重大的计算需求限制。这种挑战由于世界的动态性而进一步加剧，需要经常更新 LLM 以纠正过时的信息或整合新知识，从而确保它们持续具有相关性。近年来，对于即时修改模型的高效轻量级方法引起了越来越多的关注。本文首先定义了知识编辑问题，然后提供了对最前沿方法的全面回顾。在教育和认知研究理论的启发下，我们提出了一个统一的分类准则，将知识编辑方法分为三类：利用外部知识、将知识合并到模型中以及编辑内在知识。此外，我们引入了一个新的基准 KnowEdit，以对代表性的知识编辑方法进行综合实证评估。此外，我们对知识定位进行了深入分析，从而更深入地了解 LLM 固有的知识结构。最后，我们讨论了知识编辑的几个潜在应用，并概述了它的广泛而有影响力的意义。

Jan, 2024

利用多任务问答在语言模型中灌输类型知识

该研究论文介绍了一种利用基于类型的问题通过文本预训练在语言模型中灌输细粒度类型知识的方法，并利用知识库文档和知识图谱创建 WikiWiki 数据集来评估性能。该方法在零 - shot 对话状态跟踪基准测试中取得了最先进的表现，可以准确地推断维基百科文章中的实体类型，并能够发现人工评判认为有用的新类型。

Apr, 2022

FactKB：使用增强事实知识的语言模型进行可泛化事实性评估

文章提出了一种新的事实评估方法 FactKB，该方法使用基于预先抽取的实体知识的语言模型，以达到跨领域的通用性并解决现有模型在新领域中存在的实体和关系错误问题。通过在两个领域内的新闻汇总测试数据和三个跨领域的科学文献数据上测试，FactKB 的事实性评估模型达到了最先进的性能水平，并表现出在摘要中检测错误实体和关系的能力显著提高，从而进一步证明其在领域通用性和鲁棒性方面的特点。

May, 2023

通过关系视角评估语言模型中的知识编辑

该研究构建了一个名为 RaKE 的基准，专注于基于关系的知识编辑，并通过创新的评估指标和全面的实验研究，确认了关系在事实三元组中的作用，为未来的基于关系的知识编辑方法提供了实验支持。

Nov, 2023