May, 2024

评估 LLMs 在时间泛化上的表现

TL;DR大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型,并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench,用于动态生成最新的现实世界预测性预测的评估基准。