MRKE: 基于知识编辑的 LLMs 的多跳推理评估

Feb, 2024

MRKE: 基于知识编辑的 LLMs 的多跳推理评估

MRKE: The Multi-hop Reasoning Evaluation of LLMs by Knowledge Edition

Jian Wu, Linyi Yang, Manabu Okumura, Yue Zhang

TL;DR利用修改的 HotpotQA 数据集为基础，我们引入了第一个基于新的无与伦比的知识的 LLM 多跳问答评估基准，并注释和评估了形式为子问题和中间答案的推理链，以此促进对 LLM 在多跳问答任务上的可信评估的发展。

Abstract

Although large language models (LLMs) have shown strong performance in multi-hop question answering (MHQA) tasks, their real reasoning ability remains exploration. Current LLM QA evaluation benchmarks have shown

large language models multi-hop question answering evaluation benchmark reasoning chain hotpotqa dataset

发现论文，激发创造

通过多跳问答数据集和伪指导调整实现大型语言模型的鲁棒性时序推理

本文提出了一个复杂的时间问答（QA）数据集 Complex-TR，重点关注多答案和多跳的时间推理，并提出了一种新颖的数据增强策略来改善大型语言模型（LLMs）的复杂时间推理能力和鲁棒性。实验证明，我们的方法能够显著提高 LLMs 在时间 QA 基准测试上的性能。

Nov, 2023

多跳问答与生成综述

本文提出了一个多跳问题回答（Multi-Hop QA）的具体与形式化定义，并对现有的 Multi-Hop QA 框架进行了组织和总结，同时介绍了创建多跳问题回答数据集的最佳方法，以系统全面地介绍这个有趣而具有挑战性的任务。

Apr, 2022

使用知识图谱直接评估多跳推理中的思路一致性

大型语言模型（LLMs）在生成连贯思路解释时展现出强大的推理能力，然而，之前的研究仅关注于回答的准确性，忽略了生成的连贯思路的正确性。本文通过利用知识图谱（KGs）深入探讨 LLMs 在多跳问题回答中的连贯思路推理能力。我们提出了一种新颖的区分性和生成性连贯思路评估范式，用于评估 LLMs 关于推理的知识和生成连贯思路的准确性。通过在两个多跳问题回答数据集上对 5 个不同家族的 LLMs 进行的实验证明，LLMs 具有足够的知识进行推理，然而，LLMs 生成的连贯思路的准确性与回答的准确性存在显著差异，表明它们经常通过错误的推理方法得出正确的答案。

Feb, 2024

基于多跳关系推理实现可扩展的知识感知问答

本论文提出了一种新颖的知识感知方法，将预训练语言模型与多跳关系推理模块相结合，对外部知识图谱子图进行多跳关系推理。该方法统一了基于路径的推理方法和图神经网络，提高了可解释性和可伸缩性，并在常识问答和开放式书面问答数据集上证明了其有效性和可伸缩性，并通过案例研究进行了解释。

May, 2020

DIVKNOWQA: 通过知识库和文本进行开放领域问答评估 LLM 的推理能力

大型语言模型在生成能力方面表现出色，但当仅依赖其内部知识时，容易出现幻觉，尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案，然而，最近的方法主要强调从非结构化文本语料库进行检索，忽视了底层结构。此外，当前领域存在一个显著的差距，即缺乏对异构知识源（如知识库和文本）上的大型语言模型进行有效定位的实际基准数据集。为了填补这一空白，我们精心策划了一个综合数据集，提出了两个独特挑战：（1）需要从开放域结构化和非结构化的知识源中检索信息的两跳多源问题，正确回答问题需要从结构化知识源中检索信息；（2）符号化查询（例如用于 Wikidata 的 SPARQL）的生成是一个关键要求，增加了额外的挑战。我们的数据集通过预定义的推理链自动生成和人工注释相结合的方式创建，我们还引入了一种新颖的方法，利用多个检索工具，包括文本段落检索和符号化语言辅助检索。我们的模型在解决上述推理挑战方面优于以往的方法。

Oct, 2023

MoreHopQA: 超越多跳推理

将现有的多跳数据集从抽取性答案转变为生成性答案，通过添加常识、算术和符号推理等问题层次，我们创建了一个新的多跳数据集 MoreHopQA，以评估五个大型语言模型，并发现相较于以往的数据集，我们的数据集更具挑战性，其中部分问题分解的分析表明虽然模型可以正确回答问题，但只有某个部分实现了完美推理。

Jun, 2024

构建用于全面评估推理步骤的多跳问答数据集

本研究创建了一个名为 2WikiMultiHopQA 的新的多跳问题回答数据集，使用结构化和非结构化数据生成问题 - 答案对，并提供包含推理路径的证据信息以提供预测的全面解释并评估模型推理技能。通过实验，我们证明了我们的数据集对于多跳模型来说具有挑战性，并确保需要使用多跳推理。

Nov, 2020

PokeMQA: 可编程的多跳问题回答知识编辑

基于可编程的知识编辑，本研究提出了一种适用于多跳问题回答的框架（PokeMQA），通过解耦任务，使用分离的可训练范围探测器引导大型语言模型（LLMs）对知识增强的多跳问题进行分解，同时根据外部冲突信号调节 LLMs 的行为，从而在 MQA 的知识编辑方面表现出卓越的性能，以显著优势击败所有竞争对手，并始终产生可靠的推理过程。

Dec, 2023

HOLMES: 基于超关系的知识图谱用于多跳问答的 LLMs

利用压缩的知识图作为输入，我们的方法在使用较少标记表示支持文档中与查询相关信息方面比现有方法利用高达 67% 的标记。我们的实验证明，在两个流行的基准数据集（HotpotQA 和 MuSiQue）上，我们的方法在多个指标（EM，F1，BERTScore 和人类评估）上持续改进。

Jun, 2024

多跳推理数据集设计选择的理解

本文研究两个新的数据集对于多跳推理问题，探究了句子分层模型和无标记版本中的伪相关性。结果表明，高绩效模型可能没有像以前想象的那样学到足够的多跳推理。

Apr, 2019