回到未来:面向大型语言模型的可解释性时间推理
我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM,通过将上下文翻译成时间图,教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益,并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理,观察到符号推理带来更一致可靠的结果。
Jan, 2024
大型语言模型(LLMs)理解世界的关键是对时间进行推理。我们通过系统研究 38 个时间推理任务,提出了能够处理各种时间推理任务的通用框架,其中使用数学数据集为时间推理奠定了坚实基础,并通过自我批评的时间优化方法,提升了模型的时间推理能力。最终,我们开发了 Timo 模型,在 7B 和 13B 规模上在时间推理方面表现出色,并在平均准确度上超过了同类 LLMs 的 10.0 和 7.6,实现了新的最先进性能。通过广泛的实验证明了我们的框架的有效性和在不同时间任务上的泛化能力。
Jun, 2024
本研究介绍了 CoTempQA,一个包含四个共时场景的 QA 基准数据集,用于评估大型语言模型的共时理解和推理能力,发现当前模型在 CoTempQA 任务上表现明显低于人类水平,甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索,发现数学推理在处理共时事件中起着重要作用,并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。
Jun, 2024
本研究旨在探讨大型语言模型在处理复杂时间推理能力问题上的挑战,并提出了一种结合自然语言处理和逻辑推理的框架,证明了其在时间限制推理任务方面的有效性。
May, 2023
针对大型语言模型在时间推理任务中的性能,在引入新颖的合成数据集的基础上,对问题结构、尺寸、问题类型、事实顺序等因素对大型语言模型性能的影响进行了系统研究,从而提供了对当前大型语言模型在时间推理任务中优点和不足的有价值洞察。
Jun, 2024
大型语言模型对于时间信息的推理和保留能力仍然有限,本论文通过在一个大规模时间数据集(TempUN)上实验,揭示了在时间保留和推理能力方面存在的显著局限。有趣的是,闭源模型更频繁地显示出知识缺口,可能表明在不确定性意识和错误响应之间存在折衷。此外,探索各种微调方法并没有带来显著的性能提升。
Feb, 2024
本文研究了利用大型语言模型在可解释金融时间序列预测中的应用,使用股票价格数据、公司元数据和历史新闻等多模态信号,在 NASDAQ-100 股票上进行实验,结果显示与一些基准模型相比,使用 GPT-4 和 Open LLaMA 这类新型模型进行零样本 / 少样本推断并通过基于指令的微调生成可解释预测,优于经典的 ARMA-GARCH 模型和梯度提升树模型。
Jun, 2023
本文介绍了一个全面的测试数据 empreason 来评估大语言模型的时间推理能力,包括三个时间推理水平的问题,并提出了一种基于时间跨度提取和时间敏感的强化学习的新型学习框架来提高其时间推理能力,并证明了其有效性。
Jun, 2023
本文首次探讨了预训练语言模型在对话中的时间推理能力,并通过引入新任务 TIMEDIAL 和多项选择 cloze 测试集验证了模型的表现,同时指出模型在考虑对话上下文以及模型对于上下文中时间模式依赖性的主观推断方面存在差距,为未来时间概念建模和上下文推理方面的研究提出建议。
Jun, 2021
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023