Nov, 2023

TimeBench:大型语言模型中的时间推理能力全面评估

TL;DR理解时间是人类认知的关键方面,在把握世界的复杂性的更广泛框架中至关重要。通过创建 TimeBench,一个广泛的分层时间推理基准,涵盖了广泛的时间推理现象,我们提出可以全面评估大型语言模型的时间推理能力,对于研究人员来说是一个重要工具。通过在流行的 LLMs 上进行实验,如 GPT-4,LLaMA2 和 Mistral,我们揭示了当今最先进的 LLMs 与人类之间存在显著的性能差距,突出了在时间推理方面仍然存在相当大的差距。我们希望 TimeBench 能够成为一个全面的基准,促进 LLMs 在时间推理方面的研究。该资源可以在此 URL 获取。