朝向更准确、更具普适性的任务驱动式对话评测指标

Jun, 2023

朝向更准确、更具普适性的任务驱动式对话评测指标

Toward More Accurate and Generalizable Evaluation Metrics for Task-Oriented Dialogs

Abishek Komma, Nagesh Panyam Chandrasekarasastry, Timothy Leffel Anuj Goyal, Angeliki Metallinou, Spyros Matsoukas...

TL;DR通过使用 Dialog Quality Annotation（DQA）工作流程，对整个对话进行评估和标注，我们展示出使用有监督的模型进行对话质量估计的效果较纯粹基于整合对话层次特征的方法更好，同时建议使用高质量的人工注释数据是评估大型工业规模语音助手平台交互质量的重要组成部分。

Abstract

Measurement of interaction quality is a critical task for the improvement of spoken dialog systems. Existing approaches to dialog quality estimat

spoken dialog systems dialog quality estimation dialog-level annotation supervised model interaction quality

发现论文，激发创造

基于用户满意度评估的领域无关的对话质量评估

该研究提出了一种新的 Response Quality 标注方案，基于此开发了一种新的以轮为单位的用户满意度量。使用五个新的与领域无关的特征集和六种机器学习模型来估算新的满意度量，方法显著提高了模型性能和泛化能力。

Aug, 2019

通过用户满意度估计进行多域会话质量评估

本文提出了一种新的基于响应质量注释方法的自动化指标，通过引入五个新的与领域无关的特性集，实现了在单轮和对话层面上估计用户满意度的机器学习模型，并取得了较高的预测表现。

Nov, 2019

FineD-Eval: 细颗粒自动对话级别评估

本文介绍了一种基于多维度的对话级度量方法，由三个子度量组成，对每个子度量使用新颖的自监督方法进行训练，通过指标组合和多任务学习的方式，综合度量显著优于单一子度量。

Oct, 2022

客户支持对话的对话质量和情绪标记

本文提出了一种用于情感识别和对话质量评估的整体注释方法，为发展文本分类模型提供了一个独特而有价值的资源，并且显示出需要进一步研究以在实际应用中利用这些模型。

Nov, 2023

对话评估指标的全面评估

这篇论文对 23 种不同的自动评估度量在 10 个不同的数据集上进行了评估，并在不同的设置中对其进行了评估，从而更好地确定它们各自的优缺点。综合评估提供了关于对话评估指标的几个认识，为未来的研究提供了有用的指导。

Jun, 2021

ACUTE-EVAL: 优化问题和多轮比较的对话评估改进

本研究提出一个基于自我对话模型的评价过程，旨在寻找一种在不同注释人员之间具有更强鲁棒性的评级测试方案。经过实验证明，在这种方案下，我们可以在更快、更便宜的情况下推出新的测试标准并发布开源代码。

Sep, 2019

多领域对话中的联合转向和对话级别用户满意度估计

提出了一种新颖的用户满意度估计方法，它可通过 BiLSTM 深度神经网络模型共同预测专家提供的转化级别响应质量标签和最终用户提供的显式对话级别评分，并自动权衡每个操作对估计对话级别评分的贡献，隐式编码时间依赖关系，无需手工制作特征。在 28 个 Alexa 领域、两个对话系统和三个用户组的对话中，综合对话级满意度估计模型比基准深度神经网络和梯度提升回归模型在线性相关性能上实现了最高达 27%（0.43->0.70）和 7%（0.63->0.70）的提升。

Oct, 2020

面向任务导向对话的通用对话行为标注

本文提出了一种适用于任务导向对话系统的通用 DA 模式，并使用人类 - 人类对话语料库进行标记和建模，通过半监督学习技术，以提高标记效率和标记质量。

Jul, 2019

评估学习端到端对话系统的先决条件素质

本文提出了基于电影领域的一套新任务套件，旨在测试模型回答事实性问题、提供个性化、进行短对话及在 Reddit 上执行自然对话的能力，评估了各种模型在这些任务上的性能表现。

Nov, 2015

利用用户情感进行自动对话评估

本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法，从而避免了对人工标注数据的依赖，实现对弱监督数据的训练，并添加了对口语和书面语的支持。

Mar, 2022