大型语言模型是否具有时间性基础?
我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM,通过将上下文翻译成时间图,教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益,并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理,观察到符号推理带来更一致可靠的结果。
Jan, 2024
该研究旨在调查通用型大型语言模型在需要时间理解的任务中面临的潜在限制,针对三个流行的时间问答数据集,我们发现大型语言模型在关于过去和新信息的详细问题上表现较差,存在多个时间错误,我们的分析有助于理解大型语言模型的局限性,并为开发更好满足时间导向任务需求的未来模型提供有价值的见解。
Jan, 2024
大型语言模型对于时间信息的推理和保留能力仍然有限,本论文通过在一个大规模时间数据集(TempUN)上实验,揭示了在时间保留和推理能力方面存在的显著局限。有趣的是,闭源模型更频繁地显示出知识缺口,可能表明在不确定性意识和错误响应之间存在折衷。此外,探索各种微调方法并没有带来显著的性能提升。
Feb, 2024
研究人员测试了大型语言模型是否能够生成可信的真实世界事件描述,并发现这些模型虽然能够区分可能和不可能的事件,但在区分可能性较小的事件时仍然比人类表现差,这突显了 LLM 在事件知识方面存在的局限性。
Dec, 2022
大型语言模型(LLMs)在理解并处理时间动态方面仍面临巨大挑战,本研究通过对 GPT-3.5 和 GPT-4 模型在分析时间数据时的性能评估,揭示了它们之间的差异和为特定时间关系偏向的倾向,而这种模型间的持续差异突显了 LLMs 的归纳偏见以及其可能引入新的复杂性。
Apr, 2024
本研究介绍了 CoTempQA,一个包含四个共时场景的 QA 基准数据集,用于评估大型语言模型的共时理解和推理能力,发现当前模型在 CoTempQA 任务上表现明显低于人类水平,甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索,发现数学推理在处理共时事件中起着重要作用,并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。
Jun, 2024
大型语言模型(LLMs)展现出在各种任务中的卓越能力。我们探索 LLMs 对于一种特别显著的基于实际距离的知识,即空间关系的表示。通过设计自然语言导航任务,我们评估了 LLMs(特别是 GPT-3.5-turbo,GPT-4 和 Llama2 系列模型)在表示和推理空间结构方面的能力,并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了 LLMs 在不同空间结构(包括正方形、六边形和三角形网格、环和树形结构)中的表现变异性。我们还发现,类似于人类,LLMs 利用对象名称作为地标来维护空间地图。最后,在广泛的错误分析中,我们发现 LLMs 的错误反映了空间和非空间因素。这些发现表明,LLMs 似乎能够隐含地捕捉到空间结构的某些方面,但仍有改进空间。
Oct, 2023
使用 Llama-2 模型,我们通过分析三个空间数据集(全球、美国、纽约地点)和三个时间数据集(历史人物、艺术品、新闻标题)中学到的表示来找到 LLMs 学习的证据,发现 LLMs 在多个尺度上学习了空间和时间的线性表示,表征对提示的变化具有鲁棒性,并且跨不同实体类型(例如城市和地标)统一。此外,我们还确定了可靠地编码空间和时间坐标的个别 “空间神经元” 和 “时间神经元”。我们的分析证明了现代 LLMs 获取了关于空间和时间等基本维度的结构化知识,支持它们不仅仅学习了表面统计数据,而是字面上的世界模型。
Oct, 2023
本文研究大语言模型在自然语言处理中的局限性,特别是无法学习一些基本语义属性,如语义蕴涵和一致性,以及不能学习超越 Borel 层次结构的概念,这对语言模型的语言理解能力产生了严重限制。
Jun, 2023
该综述论文详细探讨了利用大型语言模型进行时间序列分析的各种方法,包括直接提示、时间序列量化、对齐技术、利用视觉作为桥梁机制以及与其他工具的结合,同时提供了现有的多模态时间序列和文本数据集的综合概述,并分析了该新兴领域的挑战和未来机会。
Feb, 2024