Apr, 2024

XL$^2$Bench:极长上下文理解与长距离依赖的基准测试

TL;DR我们介绍了一个长文本理解的基准测试XL2Bench,其中包含三个场景:小说阅读、论文阅读和法律阅读,以及四个难度递增的任务:记忆检索、细节理解、整体理解和开放式生成,涵盖了27个子任务,用英文和中文表示,平均长度为100K+词(英文)和200K+字符(中文)。我们评估了六个领先的大型语言模型在XL2Bench上的表现,发现它们的性能明显落后于人类水平。此外,我们观察到在原始数据集和增强数据集上的性能下降,凸显了我们缓解数据污染的方法的有效性。