Jun, 2024

STBench: 大型语言模型在时空分析中的能力评估

TL;DR该论文通过评估大型语言模型的时空数据理解能力,将其能力分解为知识理解、时空推理、准确计算和下游应用四个维度,并通过构建基准数据集 STBench 以及对 13 个语言模型的评估实验,揭示现有语言模型在知识理解和时空推理任务上表现出色,且通过在上下文学习、思维链提示和微调方面有进一步优化的潜力。