TimeBench：大型语言模型中的时间推理能力全面评估

Nov, 2023

TimeBench：大型语言模型中的时间推理能力全面评估

TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models

Zheng Chu, Jingchang Chen, Qianglong Chen, Weijiang Yu, Haotian Wang...

TL;DR理解时间是人类认知的关键方面，在把握世界的复杂性的更广泛框架中至关重要。通过创建 TimeBench，一个广泛的分层时间推理基准，涵盖了广泛的时间推理现象，我们提出可以全面评估大型语言模型的时间推理能力，对于研究人员来说是一个重要工具。通过在流行的 LLMs 上进行实验，如 GPT-4，LLaMA2 和 Mistral，我们揭示了当今最先进的 LLMs 与人类之间存在显著的性能差距，突出了在时间推理方面仍然存在相当大的差距。我们希望 TimeBench 能够成为一个全面的基准，促进 LLMs 在时间推理方面的研究。该资源可以在此 URL 获取。

Abstract

Understanding time is a pivotal aspect of human cognition, crucial in the broader framework of grasping the intricacies of the world. Previous studies typically focus on specific aspects of time, lacking a compre

time temporal reasoning timebench benchmark llms

发现论文，激发创造

时光考验：评估 LLMs 在时间推理上的基准

针对大型语言模型在时间推理任务中的性能，在引入新颖的合成数据集的基础上，对问题结构、尺寸、问题类型、事实顺序等因素对大型语言模型性能的影响进行了系统研究，从而提供了对当前大型语言模型在时间推理任务中优点和不足的有价值洞察。

Jun, 2024

TRAM：大型语言模型的时间推理基准评估

该论文介绍了 TRAM（一个由十个数据集组成的时间推理基准），用于评估大型语言模型在时间推理能力方面。使用 GPT-4、Llama2 和 BERT 模型，在需要零样本学习和少样本学习的情况下进行了广泛评估，结果显示这些模型在时间推理任务上仍然落后于人类表现。希望 TRAM 能够促进改进大型语言模型的时间推理能力。

Oct, 2023

针对大型语言模型的时间推理能力的基准测试和改进

本文介绍了一个全面的测试数据 empreason 来评估大语言模型的时间推理能力，包括三个时间推理水平的问题，并提出了一种基于时间跨度提取和时间敏感的强化学习的新型学习框架来提高其时间推理能力，并证明了其有效性。

Jun, 2023

Timo：朝着更好的语言模型时态推理

大型语言模型（LLMs）理解世界的关键是对时间进行推理。我们通过系统研究 38 个时间推理任务，提出了能够处理各种时间推理任务的通用框架，其中使用数学数据集为时间推理奠定了坚实基础，并通过自我批评的时间优化方法，提升了模型的时间推理能力。最终，我们开发了 Timo 模型，在 7B 和 13B 规模上在时间推理方面表现出色，并在平均准确度上超过了同类 LLMs 的 10.0 和 7.6，实现了新的最先进性能。通过广泛的实验证明了我们的框架的有效性和在不同时间任务上的泛化能力。

Jun, 2024

STBench: 大型语言模型在时空分析中的能力评估

该论文通过评估大型语言模型的时空数据理解能力，将其能力分解为知识理解、时空推理、准确计算和下游应用四个维度，并通过构建基准数据集 STBench 以及对 13 个语言模型的评估实验，揭示现有语言模型在知识理解和时空推理任务上表现出色，且通过在上下文学习、思维链提示和微调方面有进一步优化的潜力。

Jun, 2024

活在当下：大型语言模型能否把握同时推理？

本研究介绍了 CoTempQA，一个包含四个共时场景的 QA 基准数据集，用于评估大型语言模型的共时理解和推理能力，发现当前模型在 CoTempQA 任务上表现明显低于人类水平，甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索，发现数学推理在处理共时事件中起着重要作用，并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。

Jun, 2024

ReXTime: 视频跨时间推理的基准套件

ReXTime 是一个基准测试，旨在严格测试 AI 模型在视频事件中执行时间推理的能力。它专注于跨时间的推理，即当问题及其相应答案发生在不同的视频片段时的人类理解。我们介绍了一个自动化流程，用于生成时间推理问题 - 答案对，大大减少了对手工注释的需求。评估结果显示，虽然前沿的大型语言模型优于学术模型，但它们仍然落后于人类表现，存在 14.3％的显著准确性差距。此外，我们的流程还创建了一个培训数据集，包含 9,695 个机器生成的样本，无需人工工作，经验研究表明这可以通过微调提升跨时间推理能力。

Jun, 2024

回到未来：面向大型语言模型的可解释性时间推理

本文提出了解释性时间推理的首个任务，即通过对多个事件进行多步骤的时间推理和对未来时间戳的预测，预测事件在未来时间戳上的发生，并提供清晰的解释。我们基于多源指导调整数据集和知识图谱生成策略，提出了第一个支持解释性时间推理的开源 LLM 系列 TimeLlaMA，该方法在时间预测和解释方面取得了最先进的性能。

Oct, 2023

TIMEDIAL: 对话中的时间常识推理

本文首次探讨了预训练语言模型在对话中的时间推理能力，并通过引入新任务 TIMEDIAL 和多项选择 cloze 测试集验证了模型的表现，同时指出模型在考虑对话上下文以及模型对于上下文中时间模式依赖性的主观推断方面存在差距，为未来时间概念建模和上下文推理方面的研究提出建议。

Jun, 2021

评估 LLMs 在时间泛化上的表现

大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型，并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench，用于动态生成最新的现实世界预测性预测的评估基准。

May, 2024