Sep, 2023

文本扩展基准:数据集、度量和基准线

TL;DR本文提出了文本扩展(TE)的新任务,旨在插入细粒度修改器到纯文本的适当位置以具象化或使人类写作更生动。通过四种互补方法,我们构建了一份包含 1200 万个自动生成实例和 2000 个人工注释的英文和中文数据集。为了便于自动评估,我们从多个角度设计了各种度量指标,特别是提出了 Info-Gain 来有效度量扩展的信息量,它是 TE 任务中一个重要的质量维度。在基于预训练的文本填充模型的基础上,我们构建了基于流水线和联合定位和填充模型,证明了其在扩展信息量上优于 Text2Text 基线方法。实验证实了 TE 任务的可行性,并指出了未来研究朝着更好的自动文本扩展方向的潜在研究方向。