Dec, 2022

关于文本生成模型基于评估指标的盲点

TL;DR本文探讨了一种有用但经常被忽视的强健性分析方法,即使用合成数据进行压力测试。我们检查了基于预训练语言模型的一系列最近提出的生成、翻译和摘要任务的评估度量标准,并揭示了现有度量标准中的一些盲点和不足。我们找到了一些度量标准的不敏感性、偏见甚至漏洞,并对这些盲点的原因进行了调查,并提出了更可靠的文本生成评估的实用解决方案。