本文介绍了一种基于统计模型的文本生成评估方法,利用自动化度量的优点和人工评级的精度,通过最佳组合的方式来改进文本生成评估的准确度,而且只需要使用人工评注的 50% 即可获得与 100% 人工评级相同的评估结果。
Jun, 2023
本文探讨了自然语言处理中,现有的语言生成系统的自动评估指标的局限性,提出了一些应该受到更多关注的失败案例,鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。
Oct, 2020
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022
本文对比了现有的自动评估指标和人工评估指标,发现自动评估指标与人工评估指标相比非常相似,并提出了未来评估工作的建议。
Aug, 2022
本文探究了 NLG 评估中常用的自动化评估方法的局限性,并提出了一种系统和数据独立的新型评价方法,包括先进的基于词汇和基于语法的度量。实验证明,这些方法并不能完全反映人的判断,且表现受到数据与系统的影响。但是,自动评估仍可支持系统的开发,发现系统表现不佳的问题。
Jul, 2017
我们的研究表明:参考文本的自由度量在评估生成文本方面存在固有的偏见和限制,因此建议将其作为分析和理解模型行为的诊断工具,而不是评估模型任务表现的指标。
Oct, 2022
研究了自动度量在机器翻译系统开发和评估中的问题,发现现有的判断度量方法对于用于评估的翻译非常敏感,特别是存在异常值的情况下,经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法,可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明,需要改进度量评估和系统性能评估协议。
Jun, 2020
本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证,提出了验证研究的最佳实践,并在 WMT'17 度量共享任务中进行了分析,同时也突出了未来的发展方向。
Jul, 2019
本文探讨了一种有用但经常被忽视的强健性分析方法,即使用合成数据进行压力测试。我们检查了基于预训练语言模型的一系列最近提出的生成、翻译和摘要任务的评估度量标准,并揭示了现有度量标准中的一些盲点和不足。我们找到了一些度量标准的不敏感性、偏见甚至漏洞,并对这些盲点的原因进行了调查,并提出了更可靠的文本生成评估的实用解决方案。
Dec, 2022
提出了一种新的自动文本摘要评估系统,该系统可以基于事实一致性、综合性和压缩率来测量任何文本摘要模型的质量,该评估系统是第一个基于真实性、信息覆盖和压缩率来衡量摘要模型总体质量的系统。