Jun, 2024

时光考验:评估 LLMs 在时间推理上的基准

TL;DR针对大型语言模型在时间推理任务中的性能,在引入新颖的合成数据集的基础上,对问题结构、尺寸、问题类型、事实顺序等因素对大型语言模型性能的影响进行了系统研究,从而提供了对当前大型语言模型在时间推理任务中优点和不足的有价值洞察。