本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法,从而避免了对人工标注数据的依赖,实现对弱监督数据的训练,并添加了对口语和书面语的支持。
Mar, 2022
本文提出建立无参考评估器以及利用半监督训练和预训练(掩码)语言模型的方法来改进自动对话响应评估器的性能,实验结果表明所提出的自动评估器与人类判断具有很强的相关性(>0.6)并且能够很好地适应不同的回答和语料库。该研究代码和数据已经开源在指定链接。
Apr, 2020
本文提出了三种方法,利用情感分析对开放域对话进行自动评估,并在书面和口头对话数据集上胜过现有的自动评估指标。
Nov, 2021
通过分析和研究,本文从交互对话参与者的角度探讨了自动回复评估器所需的功能特征,并通过实验发现交互对话参与者的意识在确保自动回复评估与其判断相关性方面起着关键作用。同时,通过大规模对话数据集的使用,证明了对话连续性预测可以训练出一个具备交互对话参与者意识的自动回复评估器,但相较于人类回复,评估生成回复的困难性也得到了揭示。
Jan, 2024
提出 ADEM 模型用于对话质量的学习式自动评估,其比基于词汇重叠的 BLEU 更能与人类评估相匹配,同时具有泛化评估不同模型的能力。
Aug, 2017
本研究对开源聊天机器人的多种回复生成方法进行了系统评估,提出了利用手动注释筛选出的多个正向回复和负向回复,从而提高模型效果的新训练数据,并实验证明性能较之采用对抗训练数据有更显著提升。
Aug, 2022
本文提出一种交互式的人工评估对话质量的方法,并介绍了一种基于自我对话的度量方式,该方式可以更好地捕捉对话模型的质量,同时使用了情感和语义连贯性等维度。通过对多个模型的实验比较,研究表明,这种度量方式优于目前已知的所有自动化方法,同时也优于静态会话的人工评估。最后,开放性地共享出研究基于交互式评估所构建的数据集和平台以供其它研究者使用。
Jun, 2019
本研究提出了一种构建响应选择测试集以进行系统评估的方法,通过过滤不相关的和可接受的候选者,实验表明此方法比 BLEU 等自动评估指标更能与人类评估相关联。
本文提出了一种新的自动化评估指标,用于衡量生成响应的语义多样性,以及一种基于语义分布权重的学习方法,用于提高生成响应的语义多样性和连贯性。
Oct, 2022
本文研究对话响应生成系统的评估指标,其中没有可用的监督标签。最近,对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术 Twitter 领域中的人类判断之间的关系非常弱,而在技术 Ubuntu 领域中根本没有。我们提供了定量和定性结果,突出了现有指标的特定弱点,并提供了未来开发更好的自动评估指标的建议。
Mar, 2016