Jun, 2024

一千零一对:对长文本语言模型的 “新” 挑战

TL;DR通过创建 NoCha 数据集,我们评估了长文本 LLMs 在检索、综合和推理书籍等长篇输入上的能力,并发现其在全局推理方面普遍具有巨大挑战,并提出了一种能够演化基准数据集并分析未来模型的方法。