ACLApr, 2020

设计精确和鲁棒的对话响应评估器

TL;DR本文提出建立无参考评估器以及利用半监督训练和预训练(掩码)语言模型的方法来改进自动对话响应评估器的性能,实验结果表明所提出的自动评估器与人类判断具有很强的相关性(>0.6)并且能够很好地适应不同的回答和语料库。该研究代码和数据已经开源在指定链接。