COLINGOct, 2020

语言生成评估指标的奇异案例:一则警示故事

TL;DR本文探讨了自然语言处理中,现有的语言生成系统的自动评估指标的局限性,提出了一些应该受到更多关注的失败案例,鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。