ACLDec, 2021

使用长输入文本进行问答的 QuALITY 模型

TL;DR本文介绍了一个名为 QuALITY 的多项选择问答数据集,它包含英文上下文段落,其平均长度约为 5,000 个标记,远长于现有典型模型所能处理的长度。该数据集基于整篇文章编写和验证问题,有一半的问题无法在时间限制下回答,说明简单的浏览和搜索并不足以表现出优良的效果。作者的基准模型在这个任务上的表现较差(55.4%),并且显著落后于人类的表现(93.5%)。