开放域对话质量评估：从对话轮次评分推导出金块级别得分

Sep, 2023

开放域对话质量评估：从对话轮次评分推导出金块级别得分

Open-Domain Dialogue Quality Evaluation: Deriving Nugget-level Scores from Turn-level Scores

Rikiya Takehi, Akihisa Watanabe, Tetsuya Sakai

TL;DR通过将对话系统的对话转换为表达与对话行为相关的片段，并借助现有的对话水平评估系统，我们提出了一种评估方法，从而在定位潜在问题所在时能够实现更精细的评估。通过案例研究，我们展示了我们评估方法的潜在有效性。

Abstract

Existing dialogue quality evaluation systems can return a score for a given system turn from a particular viewpoint, e.g., engagingness. However, to improve dialogue systems by locating exactly where in a system turn potential problems lie, a more →

dialogue quality evaluation fine-grained evaluation evaluation approach nuggets nugget-level evaluation

发现论文，激发创造

基于用户满意度评估的领域无关的对话质量评估

该研究提出了一种新的 Response Quality 标注方案，基于此开发了一种新的以轮为单位的用户满意度量。使用五个新的与领域无关的特征集和六种机器学习模型来估算新的满意度量，方法显著提高了模型性能和泛化能力。

Aug, 2019

通过用户满意度估计进行多域会话质量评估

本文提出了一种新的基于响应质量注释方法的自动化指标，通过引入五个新的与领域无关的特性集，实现了在单轮和对话层面上估计用户满意度的机器学习模型，并取得了较高的预测表现。

Nov, 2019

ACUTE-EVAL: 优化问题和多轮比较的对话评估改进

本研究提出一个基于自我对话模型的评价过程，旨在寻找一种在不同注释人员之间具有更强鲁棒性的评级测试方案。经过实验证明，在这种方案下，我们可以在更快、更便宜的情况下推出新的测试标准并发布开源代码。

Sep, 2019

DynaEval：统一对话和轮次级别评估

本文介绍了一种名为 DynaEval 的评估框架，通过采用图卷积网络来对话进行建模，以全面考虑整个对话的质量，并在对话和转折水平上显著优于现有自动度量标准，对话的相关性强。

Jun, 2021

FineD-Eval: 细颗粒自动对话级别评估

本文介绍了一种基于多维度的对话级度量方法，由三个子度量组成，对每个子度量使用新颖的自监督方法进行训练，通过指标组合和多任务学习的方式，综合度量显著优于单一子度量。

Oct, 2022

朝向更准确、更具普适性的任务驱动式对话评测指标

通过使用 Dialog Quality Annotation（DQA）工作流程，对整个对话进行评估和标注，我们展示出使用有监督的模型进行对话质量估计的效果较纯粹基于整合对话层次特征的方法更好，同时建议使用高质量的人工注释数据是评估大型工业规模语音助手平台交互质量的重要组成部分。

Jun, 2023

多领域对话中的联合转向和对话级别用户满意度估计

提出了一种新颖的用户满意度估计方法，它可通过 BiLSTM 深度神经网络模型共同预测专家提供的转化级别响应质量标签和最终用户提供的显式对话级别评分，并自动权衡每个操作对估计对话级别评分的贡献，隐式编码时间依赖关系，无需手工制作特征。在 28 个 Alexa 领域、两个对话系统和三个用户组的对话中，综合对话级满意度估计模型比基准深度神经网络和梯度提升回归模型在线性相关性能上实现了最高达 27%（0.43->0.70）和 7%（0.63->0.70）的提升。

Oct, 2020

自动对话评估的用户响应和情感预测

本文提出了三种方法，利用情感分析对开放域对话进行自动评估，并在书面和口头对话数据集上胜过现有的自动评估指标。

Nov, 2021

预测性参与度：评估开放域对话系统的有效指标

该论文研究了基于用户参与度的智能对话系统的质量评估方法，提出了新的自动评估指标 —— 预测性参与度，并证明了预测性参与度可以用作实时反馈来改进对话模型。

Nov, 2019

特殊标记和对话级注意力的分层对话理解

提出了一种简单而有效的分级对话理解模型 HiDialog，其中应用了多个特殊 Token 和层级转向注意力来模拟不同问题的语义，以及异构图模块来优化学到的语义嵌入，证明该模型在对话关系提取、对话情感识别和对话行为分类等多个任务上均达到了最先进水平。

Apr, 2023