Jan, 2019

评判评判者:针对在线评论生成的神经语言模型的大规模评估研究

TL;DR本文研究自然语言生成的评估方法,并通过自动化评估和人工评估的比较,发现词汇重叠是自然语言生成的较好评估指标,而人工评估与自动化评估在排名上存在较大差异,因此呼吁重新考虑自然语言生成的评估目标。