EMNLPOct, 2023

MenatQA:用于测试大型语言模型的时间理解和推理能力的新数据集

TL;DR本论文通过构建 MenatQA 来评估大型语言模型(LLMs)在时间理解和推理能力方面的表现,并测试了不同参数大小的主流 LLMs。结果表明,大多数 LLMs 在处理不同程度的时间因素时不如更小的时间推理模型,并且对时间偏差的敏感度较高,且严重依赖于问题中提供的时间信息。此外,本文还探索了通过具体提示和外部工具来改进 LLMs 的潜在策略,为未来的研究提供了有价值的基准或参考。