Apr, 2020

TuringAdvice:语言使用的生成和动态评估

TL;DR提出了一个名为TuringAdvice的任务和对应数据集,对自然语言生成(NLG)的语言理解模型进行了测试,实证结果表明目前的NLG模型在此任务上表现不佳,仅有14%的情况下能够输出至少与人类撰写的建议同等有用,这反映出在生成性环境下难以发现的语言理解错误,仍有大量进展空间。