ACLMay, 2023

重新思考以句子并列为测试基础的文本整合

TL;DR本文提出将句子联合生成任务作为一种有效的明确定义的测试基准,以评估文本合并能力,消除了主观内容选择的影响。针对该任务,我们提出了一套细化的注释方法和众包工具,创建了迄今最大的联合数据集,并提供了多种合并方面的丰富分析。最后,我们对最先进的语言模型进行了基线评估,并对它们解决多文本合并挑战的能力及其局限性进行了详细分析。