MQuAKE: 通过多跳问题评估语言模型中的知识编辑

May, 2023

MQuAKE: 通过多跳问题评估语言模型中的知识编辑

MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions

Zexuan Zhong, Zhengxuan Wu, Christopher D. Manning, Christopher Potts, Danqi Chen

TL;DR本文探讨了在大型语言模型中注入新事实的技术，并提出了一个包含多跳问题的基准测试 MQuAKE，旨在评估修改后的模型是否能够正确回答受编辑事实影响的问题。我们提出了一个名为 MeLLo 的基于记忆的方法，存储所有编辑过的事实，并提示语言模型根据编辑后的事实迭代生成与之一致的答案。MeLLo 在大型语言模型（高达 175B）中具有良好的可扩展性和超过以往模型编辑器的性能。

Abstract

The information stored in large language models (LLMs) falls out of date quickly, and retraining from scratch is often not an option. This has recently given rise to a range of techniques for injecting new facts through updating →

large language models knowledge editing multi-hop question answering mello model weights

发现论文，激发创造

MLaKE：大型语言模型的多语言知识编辑基准

通过多个语言中的多跳推理和单跳问题，MLaKE（多语言语言知识编辑）评估了知识编辑方法在多语言环境下的适应性，发现现有方法在英语样本上表现较好，但在多语言实验中的泛化能力有限，强调了多语言知识编辑的发展需求。

Apr, 2024

PokeMQA: 可编程的多跳问题回答知识编辑

基于可编程的知识编辑，本研究提出了一种适用于多跳问题回答的框架（PokeMQA），通过解耦任务，使用分离的可训练范围探测器引导大型语言模型（LLMs）对知识增强的多跳问题进行分解，同时根据外部冲突信号调节 LLMs 的行为，从而在 MQA 的知识编辑方面表现出卓越的性能，以显著优势击败所有竞争对手，并始终产生可靠的推理过程。

Dec, 2023

语言模型中的多跳问题回答的检索增强知识编辑

用于多跳问题回答的检索增强模型编辑框架（RAE）利用相互信息最大化的检索方法和修剪策略来提供精确的答案和更新的知识。

Mar, 2024

多跳问题回答在时间知识编辑下的应用

多跳问题回答（MQA）与知识编辑（KE）相结合的研究引起了广泛关注，然而现有的 MQA 模型在处理带有明确时间背景的问题时性能较差。为了解决这一限制，我们提出了一种新的框架，即 TEMPLE-MQA，通过构建时间感知图（TAG）来有效区分问题查询中的时间背景，并通过推理路径、结构检索和联合推理阶段来增强多跳问题回答。在基准数据集上的实验证明，TEMPLE-MQA 明显优于基准模型。此外，我们还贡献了一个新的数据集，即 TKEMQA，它专门针对具有时间范围的多跳问题回答领域。

Mar, 2024

MRKE: 基于知识编辑的 LLMs 的多跳推理评估

利用修改的 HotpotQA 数据集为基础，我们引入了第一个基于新的无与伦比的知识的 LLM 多跳问答评估基准，并注释和评估了形式为子问题和中间答案的推理链，以此促进对 LLM 在多跳问答任务上的可信评估的发展。

Feb, 2024

检索增强的多语言知识编辑

多语言知识编辑通过检索增强的方式，有效地更新大型语言模型中的新知识，较传统的微调方法具有更高性能和多语言适用性。

Dec, 2023

编辑语言模型中的事实知识

本文介绍 KnowledgeEditor 一种方法，用于编辑语言模型中的知识，以修复 “错误” 或意外预测，且不需要重新训练或以元学习为前提条件。作者使用受约束的优化来训练一个超网络，该超网络可预测权重更新。作者展示了 KnowledgeEditor 的有效性，其支持两种流行的体系结构和知识密集型任务：一种是针对事实核对进行细微调整的 BERT 模型，另一种是适用于问答的序列到序列 BART 模型。

Apr, 2021

在知识编辑中利用逻辑规则：锦上添花

RULE-KE 是一种新颖的框架，它通过利用规则发现和逻辑规则更新高度相关的事实的知识，来提高知识编辑下面的所有现有 MQA 方法的性能。

May, 2024

大型语言模型知识编辑中多跳事实捷径的探索研究

本研究系统地探究了大型语言模型（LLMs）利用直接连接的简化路径进行多跳知识推理的可能性，发现知识神经元的强度与多个知识段落中初始和终止实体的共现频率高度相关，以及擦除简化路径神经元可以减少多跳知识编辑中由于简化路径而引起的失败。

Feb, 2024

时间问题回答的问题校准和多跳建模

我们提出了一种新颖的问题校准和多跳建模（QC-MHM）方法，通过融合知识图谱中的问题和时间约束概念来校准问题表示，并借助图神经网络层完成多跳消息传递，最终将问题表示与图神经网络的嵌入输出相结合以生成最终预测。实证结果验证了所提模型在基准数据集上优于现有模型的性能，尤其是在 CronQuestions 数据集的复杂问题上，QC-MHM 的 Hits@1 和 Hits@10 结果较最佳基准模型分别提高了 5.1% 和 1.2%，此外，QC-MHM 能够生成可解释且可信的预测。

Feb, 2024