MenatQA：用于测试大型语言模型的时间理解和推理能力的新数据集

EMNLPOct, 2023

MenatQA：用于测试大型语言模型的时间理解和推理能力的新数据集

MenatQA: A New Dataset for Testing the Temporal Comprehension and Reasoning Abilities of Large Language Models

Yifan Wei, Yisong Su, Huanhuan Ma, Xiaoyan Yu, Fangyu Lei...

TL;DR本论文通过构建 MenatQA 来评估大型语言模型（LLMs）在时间理解和推理能力方面的表现，并测试了不同参数大小的主流 LLMs。结果表明，大多数 LLMs 在处理不同程度的时间因素时不如更小的时间推理模型，并且对时间偏差的敏感度较高，且严重依赖于问题中提供的时间信息。此外，本文还探索了通过具体提示和外部工具来改进 LLMs 的潜在策略，为未来的研究提供了有价值的基准或参考。

Abstract

large language models (LLMs) have shown nearly saturated performance on many natural language processing (NLP) tasks. As a result, it is natural for people to believe that LLMs have also mastered abilities such as time understanding and reasoning. However, research on the →

large language models temporal sensitivity time comprehension reasoning abilities temporal biases

发现论文，激发创造

针对大型语言模型的时间推理能力的基准测试和改进

本文介绍了一个全面的测试数据 empreason 来评估大语言模型的时间推理能力，包括三个时间推理水平的问题，并提出了一种基于时间跨度提取和时间敏感的强化学习的新型学习框架来提高其时间推理能力，并证明了其有效性。

Jun, 2023

活在当下：大型语言模型能否把握同时推理？

本研究介绍了 CoTempQA，一个包含四个共时场景的 QA 基准数据集，用于评估大型语言模型的共时理解和推理能力，发现当前模型在 CoTempQA 任务上表现明显低于人类水平，甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索，发现数学推理在处理共时事件中起着重要作用，并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。

Jun, 2024

时光考验：评估 LLMs 在时间推理上的基准

针对大型语言模型在时间推理任务中的性能，在引入新颖的合成数据集的基础上，对问题结构、尺寸、问题类型、事实顺序等因素对大型语言模型性能的影响进行了系统研究，从而提供了对当前大型语言模型在时间推理任务中优点和不足的有价值洞察。

Jun, 2024

大型语言模型中的时间盲点

该研究旨在调查通用型大型语言模型在需要时间理解的任务中面临的潜在限制，针对三个流行的时间问答数据集，我们发现大型语言模型在关于过去和新信息的详细问题上表现较差，存在多个时间错误，我们的分析有助于理解大型语言模型的局限性，并为开发更好满足时间导向任务需求的未来模型提供有价值的见解。

Jan, 2024

通过多跳问答数据集和伪指导调整实现大型语言模型的鲁棒性时序推理

本文提出了一个复杂的时间问答（QA）数据集 Complex-TR，重点关注多答案和多跳的时间推理，并提出了一种新颖的数据增强策略来改善大型语言模型（LLMs）的复杂时间推理能力和鲁棒性。实验证明，我们的方法能够显著提高 LLMs 在时间 QA 基准测试上的性能。

Nov, 2023

STBench: 大型语言模型在时空分析中的能力评估

该论文通过评估大型语言模型的时空数据理解能力，将其能力分解为知识理解、时空推理、准确计算和下游应用四个维度，并通过构建基准数据集 STBench 以及对 13 个语言模型的评估实验，揭示现有语言模型在知识理解和时空推理任务上表现出色，且通过在上下文学习、思维链提示和微调方面有进一步优化的潜力。

Jun, 2024

问题回答作为编程解决时效性问题

本文旨在将大语言模型（LLMs）应用于问题作为编程（QAaP）中，以解决具有时间约束的事实问题，我们试图利用 LLMs 将各种表达形式的文本表示为良好结构的代码，以此来获取所需的知识和底层符号约束条件。

May, 2023

用于回答时间关键问题的数据集

本文提出了构建一种基于时间敏感的问答数据集，用于评估长文档 QA 系统的时间推理能力，针对现有的 QA 数据集缺乏时序问题的问题，展示出当前现有的 SoTA QA 系统（如 BigBird 和 FiD）对于时间推理的能力仍不完备，在此基础上提出将该数据集作为开发更加敏感于时间推理的 NLP 模型的基准测试。

Aug, 2021

大型语言模型能够学习时间推理

我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM，通过将上下文翻译成时间图，教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益，并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理，观察到符号推理带来更一致可靠的结果。

Jan, 2024

上下文的重要性：对时间问答系统中上下文信息影响的实证研究

该论文通过经验性地考察训练在各种上下文类型中的时间问答（TQA）系统的鲁棒性，填补大型语言模型（LLM）在处理时态信息方面的不足，发现在涵盖相关、无关、稍微改动和无上下文的混合情况下训练，能增强模型的鲁棒性和准确性，并且问题先于上下文的位置布局有着明显影响。提出了两个新的上下文丰富的 TQA 数据集，ContextAQA 和 ContextTQE，并提供了全面的评估和指南，为培养鲁棒的 TQA 模型奠定了基础，对加强 LLM 在面对多样化和潜在对抗性信息时的鲁棒性具有广泛的影响。

Jun, 2024