ZeroSCROLLS：一种用于长文本理解的零样本基准

May, 2023

ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding

Uri Shaham, Maor Ivgi, Avia Efrat, Jonathan Berant, Omer Levy

TL;DR介绍了 ZeroSCROLLS，这是一个针对自然语言理解的零样本基准测试，对六项任务进行了改编，增加了四个新的数据集，包括两个信息聚合任务，使用 ZeroSCROLLS 进行了对比评估，发现 GPT-4 的平均分数最高，但是还有多个开放性挑战需要解决。

Abstract

We introduce zeroscrolls, a zero-shot benchmark for natural language understanding over long texts, which contains only test sets, without