本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点,研究结果表明,使用多参考评估可以提高几种自动指标与人类判断之间的相关性,无论是对于系统输出的质量还是多样性。
Jul, 2019
本文提出了一种新技术,即自动将人工生成的参考文本扩展为一组备选参考文本的技术,该技术通过从知识源中获取可信的文本响应并对其进行调整,以使其在当前对话情境中更加符合逻辑,说明其方法可以显著提高与人工系统输出评级的自动指标的相关性。
Jun, 2021
提出 ADEM 模型用于对话质量的学习式自动评估,其比基于词汇重叠的 BLEU 更能与人类评估相匹配,同时具有泛化评估不同模型的能力。
Aug, 2017
本文提出了一种可靠且低成本的人类评估方法,以取代已被证明不可靠的自动评估方法,比较了与无人设定的系统相比,使用人设定对话主题的对话系统在对话质量上没有积极的贡献。
Mar, 2022
为了最大限度地提高面向任务的对话系统的实用性,该论文引入了 RADDLE 基准,该基准是一个语料库和工具的集合,用于评估模型在不同领域的性能。通过包括训练数据有限的任务,RADDLE 旨在鼓励具有强大泛化能力的模型。通过现有模型的评估,发现它们在鲁棒性评估方面不尽如人意,这提示了未来的改进机会。
Dec, 2020
本文提出建立无参考评估器以及利用半监督训练和预训练(掩码)语言模型的方法来改进自动对话响应评估器的性能,实验结果表明所提出的自动评估器与人类判断具有很强的相关性(>0.6)并且能够很好地适应不同的回答和语料库。该研究代码和数据已经开源在指定链接。
Apr, 2020
提出了一种跨语言对话评估的 ADVMT 模型,利用神经网络指标对开放域对话系统的表现进行评估,并在两种不同语言的情况下进行评估,结果显示其与人工评估的相关性高于现有指标。
May, 2018
提出了 MDD-Eval 框架,通过对话内评价与跨领域自学得到多领域评价能力,从而使得相较于现有自动对话评价指标,其在 6 个评价基准测试中可以取得 7% 的平均 Spearman 相关性分数的显著提高。
Dec, 2021
本研究对开源聊天机器人的多种回复生成方法进行了系统评估,提出了利用手动注释筛选出的多个正向回复和负向回复,从而提高模型效果的新训练数据,并实验证明性能较之采用对抗训练数据有更显著提升。
Aug, 2022
为了更好地训练和评估基于模型的度量方法,我们引入了 DailyDialog++ 数据集,并提出了一种新的基于 BERT 的度量方法 DEB,该方法预训练与 Reddit 对话中并且对我们的数据集进行了微调。DEB 的性能显著优于现有模型,并表现出更好的与人类判断的相关性和更好的随机负例性能,但在对抗性响应的评估中性能显著下降。
Sep, 2020