Feb, 2024

评估大型语言模型中的时间信息和推理技能

TL;DR大型语言模型对于时间信息的推理和保留能力仍然有限,本论文通过在一个大规模时间数据集(TempUN)上实验,揭示了在时间保留和推理能力方面存在的显著局限。有趣的是,闭源模型更频繁地显示出知识缺口,可能表明在不确定性意识和错误响应之间存在折衷。此外,探索各种微调方法并没有带来显著的性能提升。