Feb, 2022
修复裂开的基础:生成文本评估实践中的障碍调查
Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation
Practices for Generated Text
TL;DR本文对自然语言生成中的模型评估进行了综述,分类,以及讨论该领域内研究人员针对这些问题所做的工作,提出了一个长期的NLG评估愿景,并建议研究人员采取具体措施来改善他们的评估过程。最终,从66篇近期NLP会议的NLG论文中分析了研究人员在遵循这些建议方面的情况,并确定了需要更彻底改变现状的领域。