STBench: 大型语言模型在时空分析中的能力评估

Jun, 2024

STBench: 大型语言模型在时空分析中的能力评估

STBench: Assessing the Ability of Large Language Models in Spatio-Temporal Analysis

Wenbin Li, Di Yao, Ruibo Zhao, Wenjie Chen, Zijie Xu...

TL;DR该论文通过评估大型语言模型的时空数据理解能力，将其能力分解为知识理解、时空推理、准确计算和下游应用四个维度，并通过构建基准数据集 STBench 以及对 13 个语言模型的评估实验，揭示现有语言模型在知识理解和时空推理任务上表现出色，且通过在上下文学习、思维链提示和微调方面有进一步优化的潜力。

Abstract

The rapid evolution of large language models (LLMs) holds promise for reforming the methodology of spatio-temporal data mining. However, current works for evaluating the spatio-temporal understanding capability o

large language models spatio-temporal data mining knowledge comprehension spatio-temporal reasoning downstream applications

发现论文，激发创造

时光考验：评估 LLMs 在时间推理上的基准

针对大型语言模型在时间推理任务中的性能，在引入新颖的合成数据集的基础上，对问题结构、尺寸、问题类型、事实顺序等因素对大型语言模型性能的影响进行了系统研究，从而提供了对当前大型语言模型在时间推理任务中优点和不足的有价值洞察。

Jun, 2024

大型语言模型如何理解时空数据？

通过提出 STG-LLM 方法，本文解决了序列文本与复杂空间 - 时间数据之间的不匹配问题，通过 STG-Tokenizer 和 STG-Adapter，将大型语言模型的能力应用于空间 - 时间预测，取得了与专用方法相媲美的竞争性性能。

Jan, 2024

评估 LLMs 在时间泛化上的表现

大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型，并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench，用于动态生成最新的现实世界预测性预测的评估基准。

May, 2024

ST-LLM：大型语言模型是有效的时间学习器

通过在 Large Language Models（LLMs）中添加 Spatial-Temporal 序列建模，提高视频理解能力，并通过动态掩蔽策略和全局 - 局部输入模块提升效率和稳定性，从而在 VideoChatGPT-Bench 和 MVBench 上建立了新的最优结果。

Mar, 2024

大型语言模型中的时间盲点

该研究旨在调查通用型大型语言模型在需要时间理解的任务中面临的潜在限制，针对三个流行的时间问答数据集，我们发现大型语言模型在关于过去和新信息的详细问题上表现较差，存在多个时间错误，我们的分析有助于理解大型语言模型的局限性，并为开发更好满足时间导向任务需求的未来模型提供有价值的见解。

Jan, 2024

LawBench：大型语言模型法律知识基准评估

大型语言模型在法律领域的能力评估中，提出了全面评估基准 LawBench，并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型，但还有很大提升空间。

Sep, 2023

TimeBench：大型语言模型中的时间推理能力全面评估

理解时间是人类认知的关键方面，在把握世界的复杂性的更广泛框架中至关重要。通过创建 TimeBench，一个广泛的分层时间推理基准，涵盖了广泛的时间推理现象，我们提出可以全面评估大型语言模型的时间推理能力，对于研究人员来说是一个重要工具。通过在流行的 LLMs 上进行实验，如 GPT-4，LLaMA2 和 Mistral，我们揭示了当今最先进的 LLMs 与人类之间存在显著的性能差距，突出了在时间推理方面仍然存在相当大的差距。我们希望 TimeBench 能够成为一个全面的基准，促进 LLMs 在时间推理方面的研究。该资源可以在此 URL 获取。

Nov, 2023

活在当下：大型语言模型能否把握同时推理？

本研究介绍了 CoTempQA，一个包含四个共时场景的 QA 基准数据集，用于评估大型语言模型的共时理解和推理能力，发现当前模型在 CoTempQA 任务上表现明显低于人类水平，甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索，发现数学推理在处理共时事件中起着重要作用，并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。

Jun, 2024

大型语言模型能成为良好的路径规划器吗？空间 - 时间推理的基准和研究调查

大型语言模型在路径规划和空间推理方面取得了显著的成功，少样本的 GPT-4 通过不同的提示方法在空间推理方面表现出了潜力，而微调的 LLMs 则在小环境或有障碍物的情况下难以推广。

Oct, 2023

评估大型语言模型对时间序列特征理解的综合分类和基准

提出了一个评估大型语言模型（LLM）在时间序列理解方面能力的框架，包括单变量和多变量形式；通过研究时间序列的特征以及设计和合成数据集来评估 LLMs 在时间序列理解方面的能力，并揭示了 LLMs 对数据格式、查询数据的位置和时间序列长度等因素的敏感性。

Apr, 2024