Dec, 2022

BUMP: 一个非忠实度测量元评估的基准测试集

TL;DR本研究提出了不忠实最小分组(BUMP)的基准测试,该数据集由 889 个人类编写的最小不同摘要对组成,摘要来自 CNN / DailyMail 数据集,其中从 7 种类型的本体论引入单个错误以生成不忠实的摘要。该基准测试使度量稳定性的测量成为可能,揭示了最具辨别力的度量标准往往不是最稳健的,并突出了度量标准在个别错误类型上的表现和未来工作的不足之处。