针对大型语言模型的时间推理能力的基准测试和改进
针对大型语言模型在时间推理任务中的性能,在引入新颖的合成数据集的基础上,对问题结构、尺寸、问题类型、事实顺序等因素对大型语言模型性能的影响进行了系统研究,从而提供了对当前大型语言模型在时间推理任务中优点和不足的有价值洞察。
Jun, 2024
本研究介绍了 CoTempQA,一个包含四个共时场景的 QA 基准数据集,用于评估大型语言模型的共时理解和推理能力,发现当前模型在 CoTempQA 任务上表现明显低于人类水平,甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索,发现数学推理在处理共时事件中起着重要作用,并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。
Jun, 2024
本文提出了一个复杂的时间问答(QA)数据集 Complex-TR,重点关注多答案和多跳的时间推理,并提出了一种新颖的数据增强策略来改善大型语言模型(LLMs)的复杂时间推理能力和鲁棒性。实验证明,我们的方法能够显著提高 LLMs 在时间 QA 基准测试上的性能。
Nov, 2023
本论文通过构建 MenatQA 来评估大型语言模型(LLMs)在时间理解和推理能力方面的表现,并测试了不同参数大小的主流 LLMs。结果表明,大多数 LLMs 在处理不同程度的时间因素时不如更小的时间推理模型,并且对时间偏差的敏感度较高,且严重依赖于问题中提供的时间信息。此外,本文还探索了通过具体提示和外部工具来改进 LLMs 的潜在策略,为未来的研究提供了有价值的基准或参考。
Oct, 2023
大型语言模型(LLMs)理解世界的关键是对时间进行推理。我们通过系统研究 38 个时间推理任务,提出了能够处理各种时间推理任务的通用框架,其中使用数学数据集为时间推理奠定了坚实基础,并通过自我批评的时间优化方法,提升了模型的时间推理能力。最终,我们开发了 Timo 模型,在 7B 和 13B 规模上在时间推理方面表现出色,并在平均准确度上超过了同类 LLMs 的 10.0 和 7.6,实现了新的最先进性能。通过广泛的实验证明了我们的框架的有效性和在不同时间任务上的泛化能力。
Jun, 2024
本文提出了一个基于 Wikidata 的时间问答数据集 TempQA-WD,以鼓励更多的研究在复杂推理任务方面的延伸和拓展。该数据集具有以下特点:(a)包含了中间 sparql 查询以方便基于语义解析的 KBQA 方法的评估,(b)可以推广到多个知识库,如 Freebase 和 Wikidata,(c)挑战性更强。
Jan, 2022
理解时间是人类认知的关键方面,在把握世界的复杂性的更广泛框架中至关重要。通过创建 TimeBench,一个广泛的分层时间推理基准,涵盖了广泛的时间推理现象,我们提出可以全面评估大型语言模型的时间推理能力,对于研究人员来说是一个重要工具。通过在流行的 LLMs 上进行实验,如 GPT-4,LLaMA2 和 Mistral,我们揭示了当今最先进的 LLMs 与人类之间存在显著的性能差距,突出了在时间推理方面仍然存在相当大的差距。我们希望 TimeBench 能够成为一个全面的基准,促进 LLMs 在时间推理方面的研究。该资源可以在此 URL 获取。
Nov, 2023
本文提出了构建一种基于时间敏感的问答数据集,用于评估长文档 QA 系统的时间推理能力,针对现有的 QA 数据集缺乏时序问题的问题,展示出当前现有的 SoTA QA 系统(如 BigBird 和 FiD)对于时间推理的能力仍不完备,在此基础上提出将该数据集作为开发更加敏感于时间推理的 NLP 模型的基准测试。
Aug, 2021
本文提出了解释性时间推理的首个任务,即通过对多个事件进行多步骤的时间推理和对未来时间戳的预测,预测事件在未来时间戳上的发生,并提供清晰的解释。我们基于多源指导调整数据集和知识图谱生成策略,提出了第一个支持解释性时间推理的开源 LLM 系列 TimeLlaMA,该方法在时间预测和解释方面取得了最先进的性能。
Oct, 2023
该论文介绍了 TRAM(一个由十个数据集组成的时间推理基准),用于评估大型语言模型在时间推理能力方面。使用 GPT-4、Llama2 和 BERT 模型,在需要零样本学习和少样本学习的情况下进行了广泛评估,结果显示这些模型在时间推理任务上仍然落后于人类表现。希望 TRAM 能够促进改进大型语言模型的时间推理能力。
Oct, 2023