开放域对话质量评估:从对话轮次评分推导出金块级别得分
该研究提出了一种新的 Response Quality 标注方案,基于此开发了一种新的以轮为单位的用户满意度量。使用五个新的与领域无关的特征集和六种机器学习模型来估算新的满意度量,方法显著提高了模型性能和泛化能力。
Aug, 2019
本文提出了一种新的基于响应质量注释方法的自动化指标,通过引入五个新的与领域无关的特性集,实现了在单轮和对话层面上估计用户满意度的机器学习模型,并取得了较高的预测表现。
Nov, 2019
本研究提出一个基于自我对话模型的评价过程,旨在寻找一种在不同注释人员之间具有更强鲁棒性的评级测试方案。经过实验证明,在这种方案下,我们可以在更快、更便宜的情况下推出新的测试标准并发布开源代码。
Sep, 2019
本文介绍了一种名为 DynaEval 的评估框架,通过采用图卷积网络来对话进行建模,以全面考虑整个对话的质量,并在对话和转折水平上显著优于现有自动度量标准,对话的相关性强。
Jun, 2021
本文介绍了一种基于多维度的对话级度量方法,由三个子度量组成,对每个子度量使用新颖的自监督方法进行训练,通过指标组合和多任务学习的方式,综合度量显著优于单一子度量。
Oct, 2022
通过使用 Dialog Quality Annotation(DQA)工作流程,对整个对话进行评估和标注,我们展示出使用有监督的模型进行对话质量估计的效果较纯粹基于整合对话层次特征的方法更好,同时建议使用高质量的人工注释数据是评估大型工业规模语音助手平台交互质量的重要组成部分。
Jun, 2023
提出了一种新颖的用户满意度估计方法,它可通过 BiLSTM 深度神经网络模型共同预测专家提供的转化级别响应质量标签和最终用户提供的显式对话级别评分,并自动权衡每个操作对估计对话级别评分的贡献,隐式编码时间依赖关系,无需手工制作特征。在 28 个 Alexa 领域、两个对话系统和三个用户组的对话中,综合对话级满意度估计模型比基准深度神经网络和梯度提升回归模型在线性相关性能上实现了最高达 27%(0.43->0.70)和 7%(0.63->0.70)的提升。
Oct, 2020
该论文研究了基于用户参与度的智能对话系统的质量评估方法,提出了新的自动评估指标 —— 预测性参与度,并证明了预测性参与度可以用作实时反馈来改进对话模型。
Nov, 2019
提出了一种简单而有效的分级对话理解模型 HiDialog,其中应用了多个特殊 Token 和层级转向注意力来模拟不同问题的语义,以及异构图模块来优化学到的语义嵌入,证明该模型在对话关系提取、对话情感识别和对话行为分类等多个任务上均达到了最先进水平。
Apr, 2023