BriefGPT.xyz
May, 2024
评估 LLMs 在时间泛化上的表现
Evaluating LLMs at Evaluating Temporal Generalization
HTML
PDF
Chenghao Zhu, Nuo Chen, Yufei Gao, Benyou Wang
TL;DR
大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型,并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench,用于动态生成最新的现实世界预测性预测的评估基准。
Abstract
The rapid advancement of
large language models
(LLMs) highlights the urgent need for evolving
evaluation methodologies
that keep pace with improvements in language comprehension and
→