Apr, 2022

重新审视自动摘要评估指标的系统层面相关性

TL;DR本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性,并提出了对现有评估体系的变更,以改善两个方面的偏差,这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致,以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究,提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。