通过多跳问答数据集和伪指导调整实现大型语言模型的鲁棒性时序推理

Nov, 2023

通过多跳问答数据集和伪指导调整实现大型语言模型的鲁棒性时序推理

Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning

Qingyu Tan, Hwee Tou Ng, Lidong Bing

TL;DR本文提出了一个复杂的时间问答（QA）数据集 Complex-TR，重点关注多答案和多跳的时间推理，并提出了一种新颖的数据增强策略来改善大型语言模型（LLMs）的复杂时间推理能力和鲁棒性。实验证明，我们的方法能够显著提高 LLMs 在时间 QA 基准测试上的性能。

Abstract

Knowledge in the real world is being updated constantly. However, it is costly to frequently update large language models (LLMs). Therefore, it is crucial for LLMs to understand the concept of temporal knowledge.

large language models temporal knowledge temporal reasoning question-answering dataset data augmentation strategy

发现论文，激发创造

针对大型语言模型的时间推理能力的基准测试和改进

本文介绍了一个全面的测试数据 empreason 来评估大语言模型的时间推理能力，包括三个时间推理水平的问题，并提出了一种基于时间跨度提取和时间敏感的强化学习的新型学习框架来提高其时间推理能力，并证明了其有效性。

Jun, 2023

时间问题回答的问题校准和多跳建模

我们提出了一种新颖的问题校准和多跳建模（QC-MHM）方法，通过融合知识图谱中的问题和时间约束概念来校准问题表示，并借助图神经网络层完成多跳消息传递，最终将问题表示与图神经网络的嵌入输出相结合以生成最终预测。实证结果验证了所提模型在基准数据集上优于现有模型的性能，尤其是在 CronQuestions 数据集的复杂问题上，QC-MHM 的 Hits@1 和 Hits@10 结果较最佳基准模型分别提高了 5.1% 和 1.2%，此外，QC-MHM 能够生成可解释且可信的预测。

Feb, 2024

活在当下：大型语言模型能否把握同时推理？

本研究介绍了 CoTempQA，一个包含四个共时场景的 QA 基准数据集，用于评估大型语言模型的共时理解和推理能力，发现当前模型在 CoTempQA 任务上表现明显低于人类水平，甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索，发现数学推理在处理共时事件中起着重要作用，并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。

Jun, 2024

MRKE: 基于知识编辑的 LLMs 的多跳推理评估

利用修改的 HotpotQA 数据集为基础，我们引入了第一个基于新的无与伦比的知识的 LLM 多跳问答评估基准，并注释和评估了形式为子问题和中间答案的推理链，以此促进对 LLM 在多跳问答任务上的可信评估的发展。

Feb, 2024

多跳问题回答在时间知识编辑下的应用

多跳问题回答（MQA）与知识编辑（KE）相结合的研究引起了广泛关注，然而现有的 MQA 模型在处理带有明确时间背景的问题时性能较差。为了解决这一限制，我们提出了一种新的框架，即 TEMPLE-MQA，通过构建时间感知图（TAG）来有效区分问题查询中的时间背景，并通过推理路径、结构检索和联合推理阶段来增强多跳问题回答。在基准数据集上的实验证明，TEMPLE-MQA 明显优于基准模型。此外，我们还贡献了一个新的数据集，即 TKEMQA，它专门针对具有时间范围的多跳问题回答领域。

Mar, 2024

构建用于全面评估推理步骤的多跳问答数据集

本研究创建了一个名为 2WikiMultiHopQA 的新的多跳问题回答数据集，使用结构化和非结构化数据生成问题 - 答案对，并提供包含推理路径的证据信息以提供预测的全面解释并评估模型推理技能。通过实验，我们证明了我们的数据集对于多跳模型来说具有挑战性，并确保需要使用多跳推理。

Nov, 2020

基于大型语言模型的时间知识图的两阶段生成式问答

提出一种新颖的生成式时间知识图问答框架（GenTKGQA），通过两个阶段引导 LLMs 回答时间性问题：子图检索和答案生成。在第一个阶段，利用 LLM 的内在知识来挖掘问题中的时间约束和结构链接，从而缩小子图搜索空间。在第二个阶段，设计虚拟知识指示器将子图的图神经网络信号与 LLM 的文本表示非浅层次地融合，帮助开源 LLM 深入理解检索到的事实中的时间顺序和结构依赖关系。实验结果表明，该模型优于最先进的基准方法，甚至对于简单问题类型的指标达到 100％。

Feb, 2024

MenatQA：用于测试大型语言模型的时间理解和推理能力的新数据集

本论文通过构建 MenatQA 来评估大型语言模型（LLMs）在时间理解和推理能力方面的表现，并测试了不同参数大小的主流 LLMs。结果表明，大多数 LLMs 在处理不同程度的时间因素时不如更小的时间推理模型，并且对时间偏差的敏感度较高，且严重依赖于问题中提供的时间信息。此外，本文还探索了通过具体提示和外部工具来改进 LLMs 的潜在策略，为未来的研究提供了有价值的基准或参考。

Oct, 2023

多跳问答与生成综述

本文提出了一个多跳问题回答（Multi-Hop QA）的具体与形式化定义，并对现有的 Multi-Hop QA 框架进行了组织和总结，同时介绍了创建多跳问题回答数据集的最佳方法，以系统全面地介绍这个有趣而具有挑战性的任务。

Apr, 2022

使用软提示和随机游走触发语言模型中的多跳推理以进行问答

本文提出通过结构化知识图谱中的随机游走来指导语言模型完成多跳推理，从而有效解决语言模型在问答任务中组合多条逻辑事实的限制，并在两个 T5 语言模型上取得了显著的实验效果提升。

Jun, 2023