本研究提出一个基于自我对话模型的评价过程,旨在寻找一种在不同注释人员之间具有更强鲁棒性的评级测试方案。经过实验证明,在这种方案下,我们可以在更快、更便宜的情况下推出新的测试标准并发布开源代码。
Sep, 2019
通过对三类自动评估方法的系统比较,本文认为基于学习的指标是评估开放领域生成对话系统最有效的方法。为了解决由于负采样机制导致的数据集不平衡和低质问题,本文提出了一种新的基于学习的评估指标 PONE,并经过实验证明,在使用增强的正样本和有价值的负样本后,可以显著提高与人类判断的相关性,平均相关性提高达 13.18%。
Apr, 2020
这篇论文对 23 种不同的自动评估度量在 10 个不同的数据集上进行了评估,并在不同的设置中对其进行了评估,从而更好地确定它们各自的优缺点。综合评估提供了关于对话评估指标的几个认识,为未来的研究提供了有用的指导。
Jun, 2021
本文介绍了一种基于多维度的对话级度量方法,由三个子度量组成,对每个子度量使用新颖的自监督方法进行训练,通过指标组合和多任务学习的方式,综合度量显著优于单一子度量。
Oct, 2022
该研究提出了一种基于相邻对话的自动评估模型,利用未标注对话语料库中的说话者定义不同级别的类似上下文,使用推特对话语料库进行实验,表明与其他现有评估指标相比,该模型具有更高的人类标注得分相关性。并展示了在无需额外训练的情况下,将该模型应用于电影对话。
Jun, 2020
本文研究对话响应生成系统的评估指标,其中没有可用的监督标签。最近,对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术 Twitter 领域中的人类判断之间的关系非常弱,而在技术 Ubuntu 领域中根本没有。我们提供了定量和定性结果,突出了现有指标的特定弱点,并提供了未来开发更好的自动评估指标的建议。
Mar, 2016
本文提出建立无参考评估器以及利用半监督训练和预训练(掩码)语言模型的方法来改进自动对话响应评估器的性能,实验结果表明所提出的自动评估器与人类判断具有很强的相关性(>0.6)并且能够很好地适应不同的回答和语料库。该研究代码和数据已经开源在指定链接。
本文提出了一种可靠且低成本的人类评估方法,以取代已被证明不可靠的自动评估方法,比较了与无人设定的系统相比,使用人设定对话主题的对话系统在对话质量上没有积极的贡献。
Mar, 2022
本文提出了一种使用 BERT fine-tuning 的方法来比较生成的自然语言模型,同时还提出了使用技能等级系统来评估模型质量,并将其作为性能指标,在训练过程中进行优化。实验结果表明,该方法与人类偏好的相关性更高,训练成果更优秀,有效性得到了证明。
Feb, 2020
评估了现有的对话相关性度量标准,提出了减少数据要求和领域敏感性的改进并在不 fine-tuning 预训练语言模型的情况下,只使用 3750 个未经注释的人类对话和一个负面例子,我们的提议指标实现了 HUMOD dataset 的最新性能,并将数据集敏感性降低了 37%-66%。
Jun, 2022