Eva-KELLM: 一个用于评估 LLMs 的知识编辑的新基准

Aug, 2023

Eva-KELLM: 一个用于评估 LLMs 的知识编辑的新基准

Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs

Suhang Wu, Minlong Peng, Yue Chen, Jinsong Su, Mingming Sun

TL;DR评估大型语言模型的知识编辑能力和知识迁移效果的新基准 Eva-KELLM，采用原始文档进行知识编辑，从多个角度评估其效果，研究发现当前使用原始文档进行知识编辑的方法在处理修改后的知识以及跨语言知识迁移时效果不佳。

Abstract

large language models (LLMs) possess a wealth of knowledge encoded in their parameters. However, this knowledge may become outdated or unsuitable over time. As a result, there has been a growing interest in knowledge ed

large language models knowledge editing evaluation framework cross-lingual knowledge transfer knowledge retention

发现论文，激发创造

大型语言模型的知识编辑综合研究

大型语言模型 (Large Language Models) 在理解和生成与人类交流非常相似的文本方面表现出非凡的能力。然而，由于其广泛的参数化，训练过程中存在重大的计算需求限制。这种挑战由于世界的动态性而进一步加剧，需要经常更新 LLM 以纠正过时的信息或整合新知识，从而确保它们持续具有相关性。近年来，对于即时修改模型的高效轻量级方法引起了越来越多的关注。本文首先定义了知识编辑问题，然后提供了对最前沿方法的全面回顾。在教育和认知研究理论的启发下，我们提出了一个统一的分类准则，将知识编辑方法分为三类：利用外部知识、将知识合并到模型中以及编辑内在知识。此外，我们引入了一个新的基准 KnowEdit，以对代表性的知识编辑方法进行综合实证评估。此外，我们对知识定位进行了深入分析，从而更深入地了解 LLM 固有的知识结构。最后，我们讨论了知识编辑的几个潜在应用，并概述了它的广泛而有影响力的意义。

Jan, 2024

事件级知识编辑

知识编辑通过在大型语言模型中更新知识来防止其过时。本文提出一种新的任务设置：事件级别知识编辑，通过将新事件直接编辑到大型语言模型中来改进传统的三元组级别编辑。我们构建了一个高质量的事件级别编辑基准 ELKEN，其中包括 1,515 个事件编辑、6,449 个关于事实知识的问题和 10,150 个关于未来趋势的问题。我们系统评估了各种知识编辑方法和大型语言模型在这个基准上的性能，并发现 ELKEN 对现有知识编辑方法提出了显著挑战。我们的代码和数据集已公开发布，以促进进一步的研究。

Feb, 2024

大型语言模型的概念知识编辑

该论文探索了在大型语言模型中编辑概念性知识的能力，通过构建一个新的基准数据集 ConceptEdit 和建立一套新的度量标准来评估现有的编辑方法。实验结果表明，虽然现有的编辑方法在某种程度上能有效地修改概念级别的定义，但也有可能扭曲大型语言模型中相关的实例化知识，导致性能下降。这对于更好地理解大型语言模型的能力具有启发意义。

Mar, 2024

KEBench: 大型视觉语言模型的知识编辑基准

基于多模态知识图，本研究构建了一个新的基准评估 $ extbf {KEBench}$，并扩展了一种新的评估指标（可移植性），通过对五个大型视觉语言模型进行不同编辑方法的实验，深入分析这些方法对模型的影响，揭示了这些方法的优点和不足，为未来的研究提供了启示。

Mar, 2024

MLaKE：大型语言模型的多语言知识编辑基准

通过多个语言中的多跳推理和单跳问题，MLaKE（多语言语言知识编辑）评估了知识编辑方法在多语言环境下的适应性，发现现有方法在英语样本上表现较好，但在多语言实验中的泛化能力有限，强调了多语言知识编辑的发展需求。

Apr, 2024

EasyEdit: 适用于大型语言模型的易于使用的知识编辑框架

大型语言模型（LLMs）通常存在知识截断或谬误问题，为解决此问题，我们提出了 EasyEdit，一个易于使用的 LLMs 知识编辑框架，它支持各种前沿的知识编辑方法，并在可靠性和推广性方面超过了传统微调。

Aug, 2023

学习编辑：将语言模型与知识编辑对齐

知识编辑技术在大型语言模型中的应用及性能表现。

Feb, 2024

大型语言模型中的跨语言知识编辑

本文旨在研究知识编辑领域中源语言编辑对不同目标语言的交叉效应，通过将 ZsRE 从英文翻译成中文，构建大规模的跨语言合成数据集，对不同范式的知识编辑方法进行英文和中文的编辑，并评估其在不同方面的性能。进一步分析编辑模型的不一致行为并讨论其挑战。

Sep, 2023

EpiK-Eval: 评估作为知识模型的语言模型

通识大语言模型（LLMs）在人工智能时代的作用越来越核心，本文探讨了 LLMs 的能力，将不同的训练文档中的知识进行整合，以提高它们的整体有效性和性能。通过引入一个问题回答基准测试，作者发现现有的 LLMs 在这方面存在显著弱点，呼吁改进知识整合方法以开发更强大可靠的 LLMs。

Oct, 2023

大型语言模型的知识编辑：综述

介绍了大型语言模型（LLMs）的计算成本问题以及知识模型编辑（KME）领域中的最新进展和分类技术，探讨了方法的洞见、优势、限制以及实际应用和挑战，并提出了未来研究方向。

Oct, 2023