评估大型语言模型中的时间信息和推理技能

Feb, 2024

评估大型语言模型中的时间信息和推理技能

Remember This Event That Year? Assessing Temporal Information and Reasoning in Large Language Models

Himanshu Beniwal, Kowsik Nandagopan D, Mayank Singh

TL;DR大型语言模型对于时间信息的推理和保留能力仍然有限，本论文通过在一个大规模时间数据集（TempUN）上实验，揭示了在时间保留和推理能力方面存在的显著局限。有趣的是，闭源模型更频繁地显示出知识缺口，可能表明在不确定性意识和错误响应之间存在折衷。此外，探索各种微调方法并没有带来显著的性能提升。

Abstract

large language models (LLMs) are increasingly becoming ubiquitous, yet their ability to reason about and retain temporal information remains limited. This hinders their application in real-world scenarios where u

large language models temporal information temporal dataset knowledge gaps fine-tuning approaches

发现论文，激发创造

时光考验：评估 LLMs 在时间推理上的基准

针对大型语言模型在时间推理任务中的性能，在引入新颖的合成数据集的基础上，对问题结构、尺寸、问题类型、事实顺序等因素对大型语言模型性能的影响进行了系统研究，从而提供了对当前大型语言模型在时间推理任务中优点和不足的有价值洞察。

Jun, 2024

大型语言模型是否具有时间性基础？

大型语言模型在时间上没有实质依据，缺乏自洽性并且表现出不一致的行为性。

Nov, 2023

活在当下：大型语言模型能否把握同时推理？

本研究介绍了 CoTempQA，一个包含四个共时场景的 QA 基准数据集，用于评估大型语言模型的共时理解和推理能力，发现当前模型在 CoTempQA 任务上表现明显低于人类水平，甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索，发现数学推理在处理共时事件中起着重要作用，并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。

Jun, 2024

回到未来：面向大型语言模型的可解释性时间推理

本文提出了解释性时间推理的首个任务，即通过对多个事件进行多步骤的时间推理和对未来时间戳的预测，预测事件在未来时间戳上的发生，并提供清晰的解释。我们基于多源指导调整数据集和知识图谱生成策略，提出了第一个支持解释性时间推理的开源 LLM 系列 TimeLlaMA，该方法在时间预测和解释方面取得了最先进的性能。

Oct, 2023

大型语言模型中的时间盲点

该研究旨在调查通用型大型语言模型在需要时间理解的任务中面临的潜在限制，针对三个流行的时间问答数据集，我们发现大型语言模型在关于过去和新信息的详细问题上表现较差，存在多个时间错误，我们的分析有助于理解大型语言模型的局限性，并为开发更好满足时间导向任务需求的未来模型提供有价值的见解。

Jan, 2024

大型语言模型能够学习时间推理

我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM，通过将上下文翻译成时间图，教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益，并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理，观察到符号推理带来更一致可靠的结果。

Jan, 2024

针对大型语言模型的时间推理能力的基准测试和改进

本文介绍了一个全面的测试数据 empreason 来评估大语言模型的时间推理能力，包括三个时间推理水平的问题，并提出了一种基于时间跨度提取和时间敏感的强化学习的新型学习框架来提高其时间推理能力，并证明了其有效性。

Jun, 2023

基于时间感知的语言模型作为时态知识库

介绍了一个用于探讨语言模型在知识更新方面的诊断数据集，提出了一种将文本与时间戳共同建模的简单技术来改善语言模型在训练时期已知事实的记忆和对未来时间段内未知事实的预测。还展示了通过时态语境训练的语言模型可以高效 “刷新”，而无需从头开始重新训练。

Jun, 2021

使用大型语言模型分析时间复杂事件：面向时间和长上下文理解的评测基准

使用大型语言模型从时态复杂事件中提取和分析关键点和时间戳，建立了评估时态动态和理解大量文本的基准。实验证明，采用合适的信息检索和长上下文窗口的模型在处理时态复杂事件的长篇新闻文章时表现出可比较的性能。

Jun, 2024

STBench: 大型语言模型在时空分析中的能力评估

该论文通过评估大型语言模型的时空数据理解能力，将其能力分解为知识理解、时空推理、准确计算和下游应用四个维度，并通过构建基准数据集 STBench 以及对 13 个语言模型的评估实验，揭示现有语言模型在知识理解和时空推理任务上表现出色，且通过在上下文学习、思维链提示和微调方面有进一步优化的潜力。

Jun, 2024