Dec, 2022

重新审视黄金标准:用稳健的人类评估来立足摘要评估

TL;DR本文探讨了现有自动摘要的人工评估协议和基准的不足,提出了基于精细语义单元的修改版自动摘要重要性协议(ACU)和大型人工评估数据集(RoSE),并与其他人工评估协议进行了比较,证明了新的基准标注有助于更为稳定和显著的自动度量结果,可用于调整大型语言模型。