活在当下：大型语言模型能否把握同时推理？

ACLJun, 2024

活在当下：大型语言模型能否把握同时推理？

Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning?

Zhaochen Su, Juntao Li, Jun Zhang, Tong Zhu, Xiaoye Qu...

TL;DR本研究介绍了 CoTempQA，一个包含四个共时场景的 QA 基准数据集，用于评估大型语言模型的共时理解和推理能力，发现当前模型在 CoTempQA 任务上表现明显低于人类水平，甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索，发现数学推理在处理共时事件中起着重要作用，并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。

Abstract

temporal reasoning is fundamental for large language models (LLMs) to comprehend the world. Current temporal reasoning datasets are limited to questions about single or isolated events, falling short in mirroring

temporal reasoning cotempqa co-temporal comprehension reasoning abilities mathematical reasoning

发现论文，激发创造

使用代码执行解锁大型语言模型的时间问答

本研究旨在探讨大型语言模型在处理复杂时间推理能力问题上的挑战，并提出了一种结合自然语言处理和逻辑推理的框架，证明了其在时间限制推理任务方面的有效性。

May, 2023

针对大型语言模型的时间推理能力的基准测试和改进

本文介绍了一个全面的测试数据 empreason 来评估大语言模型的时间推理能力，包括三个时间推理水平的问题，并提出了一种基于时间跨度提取和时间敏感的强化学习的新型学习框架来提高其时间推理能力，并证明了其有效性。

Jun, 2023

大型语言模型能够学习时间推理

我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM，通过将上下文翻译成时间图，教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益，并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理，观察到符号推理带来更一致可靠的结果。

Jan, 2024

通过多跳问答数据集和伪指导调整实现大型语言模型的鲁棒性时序推理

本文提出了一个复杂的时间问答（QA）数据集 Complex-TR，重点关注多答案和多跳的时间推理，并提出了一种新颖的数据增强策略来改善大型语言模型（LLMs）的复杂时间推理能力和鲁棒性。实验证明，我们的方法能够显著提高 LLMs 在时间 QA 基准测试上的性能。

Nov, 2023

MenatQA：用于测试大型语言模型的时间理解和推理能力的新数据集

本论文通过构建 MenatQA 来评估大型语言模型（LLMs）在时间理解和推理能力方面的表现，并测试了不同参数大小的主流 LLMs。结果表明，大多数 LLMs 在处理不同程度的时间因素时不如更小的时间推理模型，并且对时间偏差的敏感度较高，且严重依赖于问题中提供的时间信息。此外，本文还探索了通过具体提示和外部工具来改进 LLMs 的潜在策略，为未来的研究提供了有价值的基准或参考。

Oct, 2023

回到未来：面向大型语言模型的可解释性时间推理

本文提出了解释性时间推理的首个任务，即通过对多个事件进行多步骤的时间推理和对未来时间戳的预测，预测事件在未来时间戳上的发生，并提供清晰的解释。我们基于多源指导调整数据集和知识图谱生成策略，提出了第一个支持解释性时间推理的开源 LLM 系列 TimeLlaMA，该方法在时间预测和解释方面取得了最先进的性能。

Oct, 2023

时光考验：评估 LLMs 在时间推理上的基准

针对大型语言模型在时间推理任务中的性能，在引入新颖的合成数据集的基础上，对问题结构、尺寸、问题类型、事实顺序等因素对大型语言模型性能的影响进行了系统研究，从而提供了对当前大型语言模型在时间推理任务中优点和不足的有价值洞察。

Jun, 2024

Timo：朝着更好的语言模型时态推理

大型语言模型（LLMs）理解世界的关键是对时间进行推理。我们通过系统研究 38 个时间推理任务，提出了能够处理各种时间推理任务的通用框架，其中使用数学数据集为时间推理奠定了坚实基础，并通过自我批评的时间优化方法，提升了模型的时间推理能力。最终，我们开发了 Timo 模型，在 7B 和 13B 规模上在时间推理方面表现出色，并在平均准确度上超过了同类 LLMs 的 10.0 和 7.6，实现了新的最先进性能。通过广泛的实验证明了我们的框架的有效性和在不同时间任务上的泛化能力。

Jun, 2024

评估大型语言模型中的时间信息和推理技能

大型语言模型对于时间信息的推理和保留能力仍然有限，本论文通过在一个大规模时间数据集（TempUN）上实验，揭示了在时间保留和推理能力方面存在的显著局限。有趣的是，闭源模型更频繁地显示出知识缺口，可能表明在不确定性意识和错误响应之间存在折衷。此外，探索各种微调方法并没有带来显著的性能提升。

Feb, 2024

TIMEDIAL: 对话中的时间常识推理

本文首次探讨了预训练语言模型在对话中的时间推理能力，并通过引入新任务 TIMEDIAL 和多项选择 cloze 测试集验证了模型的表现，同时指出模型在考虑对话上下文以及模型对于上下文中时间模式依赖性的主观推断方面存在差距，为未来时间概念建模和上下文推理方面的研究提出建议。

Jun, 2021