通过人工多重参考研究开放式对话系统的评估

Jul, 2019

通过人工多重参考研究开放式对话系统的评估

Investigating Evaluation of Open-Domain Dialogue Systems With Human Generated Multiple References

Prakhar Gupta, Shikib Mehri, Tiancheng Zhao, Amy Pavel, Maxine Eskenazi...

TL;DR本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Abstract

The aim of this paper is to mitigate the shortcomings of automatic evaluation of open-domain dialog systems through multi-reference evaluation. Existing metrics have been shown to correlate poorly with

open-domain dialog systems multi-reference evaluation human judgement dailydialog system output

发现论文，激发创造

通过多样化参考信息增强提高开放域对话自动评估

本文提出了一种新技术，即自动将人工生成的参考文本扩展为一组备选参考文本的技术，该技术通过从知识源中获取可信的文本响应并对其进行调整，以使其在当前对话情境中更加符合逻辑，说明其方法可以显著提高与人工系统输出评级的自动指标的相关性。

Jun, 2021

实现对开放域对话系统的可靠人工评估

本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Mar, 2022

RADE：基于参考的开放领域对话评估

使用参考答案辅助的多任务学习框架可以评估开放领域对话系统，有效解决多对多问题，通过人工标注获取多个评分而非仅限于黄金答案，实验证明该方法优于现有基准。

Sep, 2023

DSTC 11 跟踪器 4：开放域对话系统鲁棒性和多语言自动评估指标综述

本文提出神经网络和自动评估方法在对话系统中的应用，特别关注 DSTC11 的自动评估度量标准和结果。

Jun, 2023

如何选择聊天机器人：用于对话指标评估的大规模多系统多参考数据集

发布 MMSMR 数据集以促进关于对话度量和评估的未来研究。在单个参考评估集基础上创建了 8 个参考对话数据集，训练了 1750 个系统，并在 Novel 数据集和 DailyDialog 数据集上评估了各个系统的性能指标和模型超参数。

May, 2023

使用自我对战近似交互式人类评估的开放域对话系统

本文提出一种交互式的人工评估对话质量的方法，并介绍了一种基于自我对话的度量方式，该方式可以更好地捕捉对话模型的质量，同时使用了情感和语义连贯性等维度。通过对多个模型的实验比较，研究表明，这种度量方式优于目前已知的所有自动化方法，同时也优于静态会话的人工评估。最后，开放性地共享出研究基于交互式评估所构建的数据集和平台以供其它研究者使用。

Jun, 2019

重新审视开放域对话系统中的回应评估

通过分析和研究，本文从交互对话参与者的角度探讨了自动回复评估器所需的功能特征，并通过实验发现交互对话参与者的意识在确保自动回复评估与其判断相关性方面起着关键作用。同时，通过大规模对话数据集的使用，证明了对话连续性预测可以训练出一个具备交互对话参与者意识的自动回复评估器，但相较于人类回复，评估生成回复的困难性也得到了揭示。

Jan, 2024

设计精确和鲁棒的对话响应评估器

本文提出建立无参考评估器以及利用半监督训练和预训练（掩码）语言模型的方法来改进自动对话响应评估器的性能，实验结果表明所提出的自动评估器与人类判断具有很强的相关性（>0.6）并且能够很好地适应不同的回答和语料库。该研究代码和数据已经开源在指定链接。

Apr, 2020

FineD-Eval: 细颗粒自动对话级别评估

本文介绍了一种基于多维度的对话级度量方法，由三个子度量组成，对每个子度量使用新颖的自监督方法进行训练，通过指标组合和多任务学习的方式，综合度量显著优于单一子度量。

Oct, 2022

使用跟进概率进行开放域对话评估

本研究提出一种新的自动对话评估方法，使用固定的跟进集合（例如，这里没有真正相关的内容，你想说什么），测量语言模型继续对话的概率。相对于现有的 12 种评估方法，本方法与人类评估的相关性最高。

Sep, 2022