ACUTE-EVAL: 优化问题和多轮比较的对话评估改进

Sep, 2019

ACUTE-EVAL: Improved Dialogue Evaluation with Optimized Questions and Multi-turn Comparisons

Margaret Li, Jason Weston, Stephen Roller

TL;DR本研究提出一个基于自我对话模型的评价过程，旨在寻找一种在不同注释人员之间具有更强鲁棒性的评级测试方案。经过实验证明，在这种方案下，我们可以在更快、更便宜的情况下推出新的测试标准并发布开源代码。

Abstract

While dialogue remains an important end-goal of natural language research, the difficulty of evaluation is an oft-quoted reason why it rem

发现论文，激发创造

提出了一种基于对话响应之间的比较评估的对话评估度量方法 PairEval，该度量方法比基准度量方法更具鲁棒性，并且与人类判断的相关性更高。

Apr, 2024

这篇论文对 23 种不同的自动评估度量在 10 个不同的数据集上进行了评估，并在不同的设置中对其进行了评估，从而更好地确定它们各自的优缺点。综合评估提供了关于对话评估指标的几个认识，为未来的研究提供了有用的指导。

Jun, 2021

本文介绍了一种名为 DynaEval 的评估框架，通过采用图卷积网络来对话进行建模，以全面考虑整个对话的质量，并在对话和转折水平上显著优于现有自动度量标准，对话的相关性强。

Jun, 2021

本文介绍了一种基于多维度的对话级度量方法，由三个子度量组成，对每个子度量使用新颖的自监督方法进行训练，通过指标组合和多任务学习的方式，综合度量显著优于单一子度量。

Oct, 2022

提出 ADEM 模型用于对话质量的学习式自动评估，其比基于词汇重叠的 BLEU 更能与人类评估相匹配，同时具有泛化评估不同模型的能力。

Aug, 2017

本文针对对话系统中的评估协议不统一的问题，综合研究了人工评估和自动评估方法，建议建立更加健壮和统一的评估协议，并对目前使用的自动、静态和交互式评估方法进行分析，最终通过与 Alexa Prize 2020 中的系统 - 用户对话数据进行比较，提出最有效的评估维度。

Jun, 2020

本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Mar, 2022

本文研究了如何有效地评估对话系统的性能，发现人工评估是最好的方法，但人工评估方法的不同会导致不同的数量的人工注释和劳动成本，因此我们比较了五种不同的众包工人评估方法，发现不同的方法适用于不同类型的模型比较，建议在何时采用哪种方法，以及未来的研究方向。

Jan, 2022

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

通过使用 Dialog Quality Annotation（DQA）工作流程，对整个对话进行评估和标注，我们展示出使用有监督的模型进行对话质量估计的效果较纯粹基于整合对话层次特征的方法更好，同时建议使用高质量的人工注释数据是评估大型工业规模语音助手平台交互质量的重要组成部分。

Jun, 2023